Classe PdfExtractor

Informação

Representa a funcionalidade básica para extrair texto, imagens e outros tipos de conteúdo que podem ocorrer nas páginas de documentos PDF.

public abstract class PdfExtractor : IDisposable

Herança

objectPdfExtractor

Derivados

Implementa

Membros Herdados

Exemplos

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.

// criar objeto TextExtractor para extrair conteúdos PDF
using (TextExtractor extractor = new TextExtractor())
{
    // criar objeto TextExtractorOptions para definir instruções
    textExtractorOptions = new TextExtractorOptions();

    // adicionar caminho do arquivo de entrada
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // realizar o processo de extração
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // obter o texto extraído do objeto ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Observações

O objeto Documentize.TextExtractor é utilizado para extrair texto, ou Documentize.ImageExtractor para extrair imagens.

Construtores

PdfExtractor()

protected PdfExtractor()

Métodos

Dispose()

Implementação de IDisposable. Na verdade, não é necessário para PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Inicia o processamento do PdfExtractor com os parâmetros especificados.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parâmetros

  • pdfExtractorOptions IPluginOptions: Um objeto de opções contendo instruções para o PdfExtractor.

Retorna

ResultContainer : Um objeto ResultContainer contendo o resultado da extração.

Namespace: Documentize Assembly: Documentize.dll

 Português