Class PdfExtractor

Informação

Representa o plugin Documentize.PdfExtractor. Usado para extrair texto, imagens e dados de formulários de documentos PDF.

public static class PdfExtractor

Herança

objectPdfExtractor

Membros Herdados

Exemplos

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.

// Criar objeto ExtractTextOptions para definir instruções
var options = new ExtractTextOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar o processo
var results = PdfExtractor.ExtractText(options);
// Obter o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

O exemplo demonstra como extrair o conteúdo de texto de um documento PDF com TextFormattingMode.

// Criar objeto ExtractTextOptions para definir TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar o processo
var results = PdfExtractor.ExtractText(options);
// Obter o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

O exemplo demonstra como extrair imagens de um documento PDF.

// Criar ExtractImagesOptions para definir instruções
var options = new ExtractImagesOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Definir caminho do diretório de saída
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Realizar o processo
var results = PdfExtractor.ExtractImages(options);
// Obter caminho da imagem resultante
var imageExtracted = results.ResultCollection[0].ToFile();

O exemplo demonstra como extrair imagens de um documento PDF para Streams sem pasta.

// Criar ExtractImagesOptions para definir instruções
var options = new ExtractImagesOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Não definir saída - os resultados serão gravados em streams
// Realizar o processo
var results = PdfExtractor.ExtractImages(options);
// Obter Stream
var ms = results.ResultCollection[0].ToStream();
// Copiar dados para arquivo para demonstração
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

O exemplo demonstra como exportar valores de formulários para um arquivo CSV.

// Criar objeto ExtractFormDataToDsvOptions para definir instruções
var options = new ExtractFormDataToDsvOptions(',', true);
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Definir caminho do arquivo de saída
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Realizar o processo
PdfExtractor.ExtractFormData(options);

Métodos

ExtractFormData(ExtractFormDataToDsvOptions)

Extrai dados de formulário de um documento PDF.

public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)

Parâmetros

Retorna

ResultContainer : Um objeto contendo o resultado da operação.

Exceções

ArgumentException

Se as opções não estiverem definidas.

ExtractImages(ExtractImagesOptions)

Extrai imagens de um documento PDF.

public static ResultContainer ExtractImages(ExtractImagesOptions options)

Parâmetros

Retorna

ResultContainer : Um objeto contendo o resultado da operação.

Exceções

ArgumentException

Se as opções não estiverem definidas.

ExtractText(ExtractTextOptions)

Extrai texto de um documento PDF.

public static ResultContainer ExtractText(ExtractTextOptions options)

Parâmetros

  • options ExtractTextOptions: Um objeto de opções contendo instruções para a operação.

Retorna

ResultContainer : Um objeto contendo o resultado da extração.

Exceções

ArgumentException

Se as opções não estiverem definidas.

Namespace: Documentize Assembly: Documentize.dll

 Português