Class TextExtractor

Informação

Representa o plugin Documentize.TextExtractor. Usado para extrair texto de documentos PDF.

public static class TextExtractor

Herança

objectTextExtractor

Membros Herdados

Exemplos

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.

// Cria um objeto TextExtractorOptions para definir instruções
var options = new TextExtractorOptions();
// Adiciona o caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realiza o processo
var results = TextExtractor.Process(options);
// Obtém o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF com TextFormattingMode.

// Cria um objeto TextExtractorOptions para definir TextFormattingMode
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Adiciona o caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realiza o processo
var results = TextExtractor.Process(options);
// Obtém o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Métodos

Process(TextExtractorOptions)

Extrai texto de um documento PDF.

public static ResultContainer Process(TextExtractorOptions options)

Parâmetros

Retorna

ResultContainer : Um objeto contendo o resultado da extração.

Exceções

ArgumentException

Se as opções não estiverem configuradas.

Namespace: Documentize Assembly: Documentize.dll

 Português