Třída TextExtractorOptions

Info

Zastupuje možnosti extrakce textu pro plugin Documentize.TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

Dědičnost

objectPdfExtractorOptionsTextExtractorOptions

Implementuje

Děděné členy

Příklady

Příklad demonstruje, jak extrahovat textový obsah PDF dokumentu.

// vytvoření objektu TextExtractor pro extrakci obsahu PDF
using (TextExtractor extractor = new TextExtractor())
{
    // vytvoření objektu TextExtractorOptions pro nastavení TextFormattingMode (Pure, nebo Raw - výchozí)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // přidání cesty k vstupnímu souboru do datových zdrojů
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // provedení procesu extrakce
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // získání extrahovaného textu z objektu ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Poznámky

Objekt Documentize.TextExtractorOptions se používá k nastavení Documentize.TextExtractorOptions.TextFormattingMode a dalších možností pro operaci extrakce textu. Také dědí funkce pro přidání dat (souborů, proudů) představujících vstupní PDF dokumenty.

Konstruktory

TextExtractorOptions(TextFormattingMode)

Inicializuje novou instanci objektu Documentize.TextExtractorOptions pro zvolený režim formátování textu.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

Parametry

TextExtractorOptions()

Inicializuje novou instanci objektu Documentize.TextExtractorOptions s ‘Raw’ (výchozí) režimem formátování textu.

public TextExtractorOptions()

Vlastnosti

FormattingMode

Získá režim formátování.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

Hodnota vlastnosti

TextExtractorOptions.TextFormattingMode

OperationName

Vrátí název operace.

public override string OperationName { get; }

Hodnota vlastnosti

string

Namespace: Documentize Assembly: Documentize.dll

 Čeština