Klasse PdfExtractor

Info

Stellt die grundlegende Funktionalität zum Extrahieren von Text, Bildern und anderen Arten von Inhalten dar, die auf den Seiten von PDF-Dokumenten auftreten können.

public abstract class PdfExtractor : IDisposable

Vererbung

objectPdfExtractor

Abgeleitet

Implementiert

Vererbte Mitglieder

Beispiele

Das Beispiel demonstriert, wie man den Textinhalt eines PDF-Dokuments extrahiert.

// Erstelle ein TextExtractor-Objekt, um PDF-Inhalte zu extrahieren
using (TextExtractor extractor = new TextExtractor())
{
    // Erstelle ein TextExtractorOptions-Objekt, um Anweisungen festzulegen
    textExtractorOptions = new TextExtractorOptions();

    // Füge den Dateipfad hinzu
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // Führe den Extraktionsprozess durch
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // Hole den extrahierten Text aus dem ResultContainer-Objekt
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Anmerkungen

Das Documentize.TextExtractor-Objekt wird verwendet, um Text zu extrahieren, oder Documentize.ImageExtractor, um Bilder zu extrahieren.

Konstruktoren

PdfExtractor()

protected PdfExtractor()

Methoden

Dispose()

Implementierung von IDisposable. Tatsächlich ist es für PdfExtractor nicht notwendig.

public void Dispose()

Process(IPluginOptions)

Startet die Verarbeitung von PdfExtractor mit den angegebenen Parametern.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parameter

  • pdfExtractorOptions IPluginOptions: Ein Optionsobjekt, das Anweisungen für den PdfExtractor enthält.

Gibt zurück

ResultContainer : Ein ResultContainer-Objekt, das das Ergebnis der Extraktion enthält.

Namespace: Documentize Assembly: Documentize.dll

 Deutsch