Classe PdfExtractor
Informação
Representa a funcionalidade básica para extrair texto, imagens e outros tipos de conteúdo que podem ocorrer nas páginas de documentos PDF.
public abstract class PdfExtractor : IDisposable
Herança
Derivados
Implementa
Membros Herdados
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemplos
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.
// criar objeto TextExtractor para extrair conteúdos PDF
using (TextExtractor extractor = new TextExtractor())
{
// criar objeto TextExtractorOptions para definir instruções
textExtractorOptions = new TextExtractorOptions();
// adicionar caminho do arquivo de entrada
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// realizar o processo de extração
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// obter o texto extraído do objeto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Observações
O objeto Documentize.TextExtractor é utilizado para extrair texto, ou Documentize.ImageExtractor para extrair imagens.
Construtores
PdfExtractor()
protected PdfExtractor()
Métodos
Dispose()
Implementação de IDisposable. Na verdade, não é necessário para PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Inicia o processamento do PdfExtractor com os parâmetros especificados.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parâmetros
pdfExtractorOptions
IPluginOptions: Um objeto de opções contendo instruções para o PdfExtractor.
Retorna
ResultContainer : Um objeto ResultContainer contendo o resultado da extração.
Namespace: Documentize Assembly: Documentize.dll