Klass TextExtractorOptions
Representerar alternativ för textextraktion för Documentize.TextExtractor-pluginet.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Arv
object ←
PdfExtractorOptions ←
TextExtractorOptions
Implementerar
Ärvda medlemmar
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exempel
Exemplet visar hur man extraherar textinnehåll från en PDF-dokument.
// skapa TextExtractor-objekt för att extrahera PDF-innehåll
using (TextExtractor extractor = new TextExtractor())
{
// skapa TextExtractorOptions-objekt för att ställa in TextFormattingMode (Pure, eller Raw - standard)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// lägg till filväg till datakällor
extractorOptions.AddInput(new FileDataSource(inputPath));
// utför extraktionsprocess
ResultContainer resultContainer = extractor.Process(extractorOptions);
// få den extraherade texten från ResultContainer-objektet
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Kommentarer
Documentize.TextExtractorOptions-objektet används för att ställa in Documentize.TextExtractorOptions.TextFormattingMode och andra alternativ för textextraktionsoperationen.
Det ärver också funktioner för att lägga till data (filer, strömmar) som representerar inmatade PDF-dokument.
Konstruktörer
TextExtractorOptions(TextFormattingMode)
Initierar en ny instans av Documentize.TextExtractorOptions-objektet för den angivna textformateringsläget.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Parametrar
formattingMode
TextExtractorOptions.TextFormattingMode: Textformateringsläge värde.
TextExtractorOptions()
Initierar en ny instans av Documentize.TextExtractorOptions-objektet med ‘Raw’ (standard) textformateringsläge.
public TextExtractorOptions()
Egenskaper
FormattingMode
Hämtar formateringsläget.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Egenskapsvärde
TextExtractorOptions.TextFormattingMode
OperationName
Returnerar namnet på operationen.
public override string OperationName { get; }
Egenskapsvärde
Namespace: Documentize
Assembly: Documentize.dll