Class PdfExtractor

Información

Representa el plugin Documentize.PdfExtractor. Se utiliza para extraer texto, imágenes y datos de formularios de documentos PDF.

public static class PdfExtractor

Herencia

objectPdfExtractor

Miembros heredados

Ejemplos

El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF.

// Crear un objeto ExtractTextOptions para establecer las instrucciones
var options = new ExtractTextOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = PdfExtractor.ExtractText(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF con TextFormattingMode.

// Crear un objeto ExtractTextOptions para establecer TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = PdfExtractor.ExtractText(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

El ejemplo demuestra cómo extraer imágenes de un documento PDF.

// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Establecer la ruta del directorio de salida
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Realizar el proceso
var results = PdfExtractor.ExtractImages(options);
// Obtener la ruta del resultado de la imagen
var imageExtracted = results.ResultCollection[0].ToFile();

El ejemplo demuestra cómo extraer imágenes de un documento PDF a Streams sin carpeta.

// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// No establecer salida - escribirá resultados en streams
// Realizar el proceso
var results = PdfExtractor.ExtractImages(options);
// Obtener Stream
var ms = results.ResultCollection[0].ToStream();
// Copiar datos a un archivo para la demostración
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

El ejemplo demuestra cómo exportar valores de formularios a un archivo CSV.

// Crear un objeto ExtractFormDataToDsvOptions para establecer las instrucciones
var options = new ExtractFormDataToDsvOptions(',', true);
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Establecer la ruta del archivo de salida
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Realizar el proceso
PdfExtractor.ExtractFormData(options);

Métodos

ExtractFormData(ExtractFormDataToDsvOptions)

Extraer datos de formularios de un documento PDF.

public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)

Parámetros

Retorna

ResultContainer : Un objeto que contiene el resultado de la operación.

Excepciones

ArgumentException

Si no se establecen las opciones.

ExtractImages(ExtractImagesOptions)

Extraer imágenes de un documento PDF.

public static ResultContainer ExtractImages(ExtractImagesOptions options)

Parámetros

Retorna

ResultContainer : Un objeto que contiene el resultado de la operación.

Excepciones

ArgumentException

Si no se establecen las opciones.

ExtractText(ExtractTextOptions)

Extraer texto de un documento PDF.

public static ResultContainer ExtractText(ExtractTextOptions options)

Parámetros

  • options ExtractTextOptions: Un objeto de opciones que contiene instrucciones para la operación.

Retorna

ResultContainer : Un objeto que contiene el resultado de la extracción.

Excepciones

ArgumentException

Si no se establecen las opciones.

Namespace: Documentize Assembly: Documentize.dll

 Español