Classe TextExtractorOptions

Informação

Representa opções de extração de texto para o plugin Documentize.TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

Herança

objectPdfExtractorOptionsTextExtractorOptions

Implementa

Membros Herdados

Exemplos

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.

// criar objeto TextExtractor para extrair conteúdos PDF
using (TextExtractor extractor = new TextExtractor())
{
    // criar objeto TextExtractorOptions para definir TextFormattingMode (Puro, ou Cru - padrão)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // adicionar caminho do arquivo de entrada às fontes de dados
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // realizar processo de extração
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // obter o texto extraído do objeto ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Observações

O objeto Documentize.TextExtractorOptions é usado para definir Documentize.TextExtractorOptions.TextFormattingMode e outras opções para a operação de extração de texto. Além disso, herda funções para adicionar dados (arquivos, fluxos) representando documentos PDF de entrada.

Construtores

TextExtractorOptions(TextFormattingMode)

Inicializa uma nova instância do objeto Documentize.TextExtractorOptions para o modo de formatação de texto especificado.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

Parâmetros

TextExtractorOptions()

Inicializa uma nova instância do objeto Documentize.TextExtractorOptions com o modo de formatação de texto ‘Cru’ (padrão).

public TextExtractorOptions()

Propriedades

FormattingMode

Obtém o modo de formatação.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

Valor da Propriedade

TextExtractorOptions.TextFormattingMode

OperationName

Retorna o nome da operação.

public override string OperationName { get; }

Valor da Propriedade

string

Namespace: Documentize Assembly: Documentize.dll

 Português