Třída TextExtractorOptions
Zastupuje možnosti extrakce textu pro plugin Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Dědičnost
object ← PdfExtractorOptions ← TextExtractorOptions
Implementuje
Děděné členy
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Příklady
Příklad demonstruje, jak extrahovat textový obsah PDF dokumentu.
// vytvoření objektu TextExtractor pro extrakci obsahu PDF
using (TextExtractor extractor = new TextExtractor())
{
// vytvoření objektu TextExtractorOptions pro nastavení TextFormattingMode (Pure, nebo Raw - výchozí)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// přidání cesty k vstupnímu souboru do datových zdrojů
extractorOptions.AddInput(new FileDataSource(inputPath));
// provedení procesu extrakce
ResultContainer resultContainer = extractor.Process(extractorOptions);
// získání extrahovaného textu z objektu ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Poznámky
Objekt Documentize.TextExtractorOptions se používá k nastavení Documentize.TextExtractorOptions.TextFormattingMode a dalších možností pro operaci extrakce textu. Také dědí funkce pro přidání dat (souborů, proudů) představujících vstupní PDF dokumenty.
Konstruktory
TextExtractorOptions(TextFormattingMode)
Inicializuje novou instanci objektu Documentize.TextExtractorOptions pro zvolený režim formátování textu.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Parametry
formattingMode
TextExtractorOptions.TextFormattingMode: Hodnota režimu formátování textu.
TextExtractorOptions()
Inicializuje novou instanci objektu Documentize.TextExtractorOptions s ‘Raw’ (výchozí) režimem formátování textu.
public TextExtractorOptions()
Vlastnosti
FormattingMode
Získá režim formátování.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Hodnota vlastnosti
TextExtractorOptions.TextFormattingMode
OperationName
Vrátí název operace.
public override string OperationName { get; }
Hodnota vlastnosti
Namespace: Documentize Assembly: Documentize.dll