Klasse PdfExtractor
Info
Stellt die grundlegende Funktionalität zum Extrahieren von Text, Bildern und anderen Arten von Inhalten dar, die auf den Seiten von PDF-Dokumenten auftreten können.
public abstract class PdfExtractor : IDisposable
Vererbung
Abgeleitet
Implementiert
Vererbte Mitglieder
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Beispiele
Das Beispiel demonstriert, wie man den Textinhalt eines PDF-Dokuments extrahiert.
// Erstelle ein TextExtractor-Objekt, um PDF-Inhalte zu extrahieren
using (TextExtractor extractor = new TextExtractor())
{
// Erstelle ein TextExtractorOptions-Objekt, um Anweisungen festzulegen
textExtractorOptions = new TextExtractorOptions();
// Füge den Dateipfad hinzu
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// Führe den Extraktionsprozess durch
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// Hole den extrahierten Text aus dem ResultContainer-Objekt
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Anmerkungen
Das Documentize.TextExtractor-Objekt wird verwendet, um Text zu extrahieren, oder Documentize.ImageExtractor, um Bilder zu extrahieren.
Konstruktoren
PdfExtractor()
protected PdfExtractor()
Methoden
Dispose()
Implementierung von IDisposable. Tatsächlich ist es für PdfExtractor nicht notwendig.
public void Dispose()
Process(IPluginOptions)
Startet die Verarbeitung von PdfExtractor mit den angegebenen Parametern.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parameter
pdfExtractorOptions
IPluginOptions: Ein Optionsobjekt, das Anweisungen für den PdfExtractor enthält.
Gibt zurück
ResultContainer : Ein ResultContainer-Objekt, das das Ergebnis der Extraktion enthält.
Namespace: Documentize Assembly: Documentize.dll