Class PdfExtractor
Representa o plugin Documentize.PdfExtractor. Usado para extrair texto, imagens e dados de formulários de documentos PDF.
public static class PdfExtractorHerança
Membros Herdados
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemplos
O exemplo demonstra como extrair o conteúdo de texto de um documento PDF.
// Criar objeto ExtractTextOptions para definir instruções
var options = new ExtractTextOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar o processo
var results = PdfExtractor.ExtractText(options);
// Obter o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();O exemplo demonstra como extrair o conteúdo de texto de um documento PDF com TextFormattingMode.
// Criar objeto ExtractTextOptions para definir TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar o processo
var results = PdfExtractor.ExtractText(options);
// Obter o texto extraído do objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();O exemplo demonstra como extrair imagens de um documento PDF.
// Criar ExtractImagesOptions para definir instruções
var options = new ExtractImagesOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Definir caminho do diretório de saída
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Realizar o processo
var results = PdfExtractor.ExtractImages(options);
// Obter caminho da imagem resultante
var imageExtracted = results.ResultCollection[0].ToFile();O exemplo demonstra como extrair imagens de um documento PDF para Streams sem pasta.
// Criar ExtractImagesOptions para definir instruções
var options = new ExtractImagesOptions();
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Não definir saída - os resultados serão gravados em streams
// Realizar o processo
var results = PdfExtractor.ExtractImages(options);
// Obter Stream
var ms = results.ResultCollection[0].ToStream();
// Copiar dados para arquivo para demonstração
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}O exemplo demonstra como exportar valores de formulários para um arquivo CSV.
// Criar objeto ExtractFormDataToDsvOptions para definir instruções
var options = new ExtractFormDataToDsvOptions(',', true);
// Adicionar caminho do arquivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Definir caminho do arquivo de saída
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Realizar o processo
PdfExtractor.ExtractFormData(options);Métodos
ExtractFormData(ExtractFormDataToDsvOptions)
Extrai dados de formulário de um documento PDF.
public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)Parâmetros
optionsExtractFormDataToDsvOptions: Um objeto de opções contendo instruções para a operação.
Retorna
ResultContainer : Um objeto contendo o resultado da operação.
Exceções
Se as opções não estiverem definidas.
ExtractImages(ExtractImagesOptions)
Extrai imagens de um documento PDF.
public static ResultContainer ExtractImages(ExtractImagesOptions options)Parâmetros
optionsExtractImagesOptions: Um objeto de opções contendo instruções para a operação.
Retorna
ResultContainer : Um objeto contendo o resultado da operação.
Exceções
Se as opções não estiverem definidas.
ExtractText(ExtractTextOptions)
Extrai texto de um documento PDF.
public static ResultContainer ExtractText(ExtractTextOptions options)Parâmetros
optionsExtractTextOptions: Um objeto de opções contendo instruções para a operação.
Retorna
ResultContainer : Um objeto contendo o resultado da extração.
Exceções
Se as opções não estiverem definidas.
Namespace: Documentize Assembly: Documentize.dll