Class PdfExtractor

Informação

Representa o componente Documentize.PdfExtractor. Usado para Extrair Texto, Imagens, Dados de Formulário, Propriedades (Metadados) de documentos PDF.

public static class PdfExtractor

Herança

objectPdfExtractor

Membros herdados

Métodos

Extract(ExtractTextOptions)

Extrai Texto de um documento PDF.

public static string Extract(ExtractTextOptions options)

Parâmetros

  • options ExtractTextOptions: Um objeto de opções contendo instruções para a operação.

Retorno

string : Texto extraído.

Exemplos

O exemplo demonstra como Extrair conteúdo de Texto de um arquivo PDF.

// Create ExtractTextOptions object to set input file path
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

O exemplo demonstra como Extrair conteúdo de Texto de um fluxo PDF.

// Create ExtractTextOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

O exemplo demonstra como Extrair conteúdo de Texto de um documento PDF com TextFormattingMode.

// Create ExtractTextOptions object to set input file path and TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(options);

O exemplo demonstra como Extrair Texto de um arquivo PDF da forma mais curta possível.

// Perform the process and get the extracted text
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Exceções

ArgumentException

Se as opções não estiverem definidas.

Extract(ExtractImagesOptions)

Extrai imagens de um documento PDF.

public static ResultContainer Extract(ExtractImagesOptions options)

Parâmetros

Retorno

ResultContainer : Um objeto contendo o resultado da operação.

Exemplos

O exemplo demonstra como Extrair Imagens de um documento PDF.

// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Set output Directory path
options.AddOutput(new DirectoryData("path_to_results_directory"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get path to image result
var imageExtracted = results.ResultCollection[0].ToFile();

O exemplo demonstra como Extrair Imagens de um documento PDF para Streams sem pasta.

// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Not set output - it will write results to streams
// Perform the process
var results = PdfExtractor.Extract(options);
// Get Stream
var ms = results.ResultCollection[0].ToStream();
// Copy data to file for demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Exceções

ArgumentException

Se as opções não estiverem definidas.

Extract(ExtractFormDataToDsvOptions)

Extrai Dados de Formulário de um documento PDF.

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

Parâmetros

Retorno

ResultContainer : Um objeto contendo o resultado da operação.

Exemplos

O exemplo demonstra como Exportar valores de Formulário para um arquivo CSV.

// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileData("path_to_result_csv_file.csv"));
// Perform the process
PdfExtractor.Extract(options);

O exemplo demonstra como Exportar valores de Formulário para um arquivo TSV e definir Propriedades.

// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions();
//Set Delimiter
options.Delimiter = '\t';
//Add Field Names to result
options.AddFieldName = true;
// Add input file path
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
// Perform the process
PdfExtractor.Extract(options);

Exceções

ArgumentException

Se as opções não estiverem definidas.

Extract(ExtractPropertiesOptions)

Extrai Propriedades de um documento PDF.

public static PdfProperties Extract(ExtractPropertiesOptions options)

Parâmetros

Retorno

PdfProperties : Um objeto contendo o resultado da operação.

Exemplos

O exemplo demonstra como Extrair Propriedades (NomeDoArquivo, Título, Autor, Assunto, Palavras‑chave, Criado, Modificado, Aplicação, Produtor PDF, Número de Páginas) de um arquivo PDF.

// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

O exemplo demonstra como Extrair Propriedades (Título, Autor, Assunto, Palavras‑chave, Criado, Modificado, Aplicação, Produtor PDF, Número de Páginas) de um fluxo PDF.

// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

O exemplo demonstra como Extrair Propriedades de um arquivo PDF da forma mais curta possível.

// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Exceções

ArgumentException

Se as opções não estiverem definidas.

Namespace: Documentize Assembly: Documentize.dll

 Português