Classe TextExtractorOptions
Representa opções de extração de texto para o plugin Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Herança
object ← PdfExtractorOptions ← TextExtractorOptions
Implementa
Membros Herdados
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemplos
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.
// criar objeto TextExtractor para extrair conteúdos PDF
using (TextExtractor extractor = new TextExtractor())
{
// criar objeto TextExtractorOptions para definir TextFormattingMode (Puro, ou Cru - padrão)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// adicionar caminho do arquivo de entrada às fontes de dados
extractorOptions.AddInput(new FileDataSource(inputPath));
// realizar processo de extração
ResultContainer resultContainer = extractor.Process(extractorOptions);
// obter o texto extraído do objeto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Observações
O objeto Documentize.TextExtractorOptions é usado para definir Documentize.TextExtractorOptions.TextFormattingMode e outras opções para a operação de extração de texto. Além disso, herda funções para adicionar dados (arquivos, fluxos) representando documentos PDF de entrada.
Construtores
TextExtractorOptions(TextFormattingMode)
Inicializa uma nova instância do objeto Documentize.TextExtractorOptions para o modo de formatação de texto especificado.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Parâmetros
formattingMode
TextExtractorOptions.TextFormattingMode: Valor do modo de formatação de texto.
TextExtractorOptions()
Inicializa uma nova instância do objeto Documentize.TextExtractorOptions com o modo de formatação de texto ‘Cru’ (padrão).
public TextExtractorOptions()
Propriedades
FormattingMode
Obtém o modo de formatação.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Valor da Propriedade
TextExtractorOptions.TextFormattingMode
OperationName
Retorna o nome da operação.
public override string OperationName { get; }
Valor da Propriedade
Namespace: Documentize Assembly: Documentize.dll