Class PdfExtractor
Representa el plugin Documentize.PdfExtractor. Se utiliza para extraer texto, imágenes y datos de formularios de documentos PDF.
public static class PdfExtractorHerencia
Miembros heredados
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ejemplos
El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF.
// Crear un objeto ExtractTextOptions para establecer las instrucciones
var options = new ExtractTextOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = PdfExtractor.ExtractText(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF con TextFormattingMode.
// Crear un objeto ExtractTextOptions para establecer TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = PdfExtractor.ExtractText(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();El ejemplo demuestra cómo extraer imágenes de un documento PDF.
// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Establecer la ruta del directorio de salida
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Realizar el proceso
var results = PdfExtractor.ExtractImages(options);
// Obtener la ruta del resultado de la imagen
var imageExtracted = results.ResultCollection[0].ToFile();El ejemplo demuestra cómo extraer imágenes de un documento PDF a Streams sin carpeta.
// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// No establecer salida - escribirá resultados en streams
// Realizar el proceso
var results = PdfExtractor.ExtractImages(options);
// Obtener Stream
var ms = results.ResultCollection[0].ToStream();
// Copiar datos a un archivo para la demostración
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}El ejemplo demuestra cómo exportar valores de formularios a un archivo CSV.
// Crear un objeto ExtractFormDataToDsvOptions para establecer las instrucciones
var options = new ExtractFormDataToDsvOptions(',', true);
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Establecer la ruta del archivo de salida
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Realizar el proceso
PdfExtractor.ExtractFormData(options);Métodos
ExtractFormData(ExtractFormDataToDsvOptions)
Extraer datos de formularios de un documento PDF.
public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)Parámetros
optionsExtractFormDataToDsvOptions: Un objeto de opciones que contiene instrucciones para la operación.
Retorna
ResultContainer : Un objeto que contiene el resultado de la operación.
Excepciones
Si no se establecen las opciones.
ExtractImages(ExtractImagesOptions)
Extraer imágenes de un documento PDF.
public static ResultContainer ExtractImages(ExtractImagesOptions options)Parámetros
optionsExtractImagesOptions: Un objeto de opciones que contiene instrucciones para la operación.
Retorna
ResultContainer : Un objeto que contiene el resultado de la operación.
Excepciones
Si no se establecen las opciones.
ExtractText(ExtractTextOptions)
Extraer texto de un documento PDF.
public static ResultContainer ExtractText(ExtractTextOptions options)Parámetros
optionsExtractTextOptions: Un objeto de opciones que contiene instrucciones para la operación.
Retorna
ResultContainer : Un objeto que contiene el resultado de la extracción.
Excepciones
Si no se establecen las opciones.
Namespace: Documentize Assembly: Documentize.dll