Klasse TextExtractorOptions
Stellt die Optionen zur Textextraktion für das Documentize.TextExtractor-Plugin dar.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Vererbung
object ← PdfExtractorOptions ← TextExtractorOptions
Implementiert
Vererbte Mitglieder
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Beispiele
Das Beispiel zeigt, wie man den Textinhalt eines PDF-Dokuments extrahiert.
// Erstelle ein TextExtractor-Objekt, um PDF-Inhalte zu extrahieren
using (TextExtractor extractor = new TextExtractor())
{
// Erstelle ein TextExtractorOptions-Objekt, um den TextFormattingMode (Pure oder Raw - Standard) festzulegen
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// Füge den Dateipfad zur Eingabedatenquelle hinzu
extractorOptions.AddInput(new FileDataSource(inputPath));
// Führe den Extraktionsprozess durch
ResultContainer resultContainer = extractor.Process(extractorOptions);
// Hole den extrahierten Text aus dem ResultContainer-Objekt
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Bemerkungen
Das Documentize.TextExtractorOptions-Objekt wird verwendet, um Documentize.TextExtractorOptions.TextFormattingMode und andere Optionen für den Extraktionsvorgang festzulegen. Es erbt auch Funktionen, um Daten (Dateien, Streams) hinzuzufügen, die Eingabepdf-Dokumente darstellen.
Konstruktoren
TextExtractorOptions(TextFormattingMode)
Initialisiert eine neue Instanz des Documentize.TextExtractorOptions-Objekts für den angegebenen Textformatierungsmodus.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Parameter
formattingMode
TextExtractorOptions.TextFormattingMode: Wert für den Textformatierungsmodus.
TextExtractorOptions()
Initialisiert eine neue Instanz des Documentize.TextExtractorOptions-Objekts mit dem Textformatierungsmodus ‘Raw’ (Standard).
public TextExtractorOptions()
Eigenschaften
FormattingMode
Erhält den Formatierungsmodus.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Eigenschaftswert
TextExtractorOptions.TextFormattingMode
OperationName
Gibt den Namen der Operation zurück.
public override string OperationName { get; }
Eigenschaftswert
Namespace: Documentize Assembly: Documentize.dll