Class TextExtractor
Informação
Representa o plugin Documentize.TextExtractor. Usado para extrair texto de documentos PDF.
public static class TextExtractor
Herança
Membros Herdados
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemplos
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.
// Cria um objeto TextExtractorOptions para definir instruções
var options = new TextExtractorOptions();
// Adiciona o caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realiza o processo
var results = TextExtractor.Process(options);
// Obtém o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF com TextFormattingMode.
// Cria um objeto TextExtractorOptions para definir TextFormattingMode
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Adiciona o caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realiza o processo
var results = TextExtractor.Process(options);
// Obtém o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Métodos
Process(TextExtractorOptions)
Extrai texto de um documento PDF.
public static ResultContainer Process(TextExtractorOptions options)
Parâmetros
options
TextExtractorOptions: Um objeto de opções contendo instruções para a operação.
Retorna
ResultContainer : Um objeto contendo o resultado da extração.
Exceções
Se as opções não estiverem configuradas.
Namespace: Documentize Assembly: Documentize.dll