Class PdfExtractor

Información

Representa el plugin Documentize.PdfExtractor. Se usa para extraer texto, imágenes, datos de formulario, propiedades (metadatos) de documentos PDF.

public static class PdfExtractor

Inheritance

objectPdfExtractor

Inherited Members

Methods

Extract(ExtractTextOptions)

Extrae texto de un documento PDF.

public static string Extract(ExtractTextOptions options)

Parameters

  • options ExtractTextOptions: Un objeto de opciones que contiene las instrucciones para la operación.

Returns

string : Texto extraído.

Examples

El ejemplo muestra cómo extraer contenido de texto de un archivo PDF.

// Crear objeto ExtractTextOptions para establecer la ruta del archivo de entrada
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Ejecutar el proceso y obtener el texto extraído
var textExtracted = PdfExtractor.Extract(options);

El ejemplo muestra cómo extraer contenido de texto de un flujo PDF.

// Crear objeto ExtractTextOptions para establecer el flujo de entrada
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Ejecutar el proceso y obtener el texto extraído
var textExtracted = PdfExtractor.Extract(options);

El ejemplo muestra cómo extraer contenido de texto de un documento PDF con TextFormattingMode.

// Crear objeto ExtractTextOptions para establecer la ruta del archivo y TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Ejecutar el proceso y obtener el texto extraído
var textExtracted = PdfExtractor.Extract(options);

El ejemplo muestra cómo extraer texto de un archivo PDF de la forma más breve posible.

// Ejecutar el proceso y obtener el texto extraído
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Exceptions

ArgumentException

Si no se establecen las opciones.

Extract(ExtractImagesOptions)

Extrae imágenes de un documento PDF.

public static ResultContainer Extract(ExtractImagesOptions options)

Parameters

  • options ExtractImagesOptions: Un objeto de opciones que contiene las instrucciones para la operación.

Returns

ResultContainer : Un objeto que contiene el resultado de la operación.

Examples

El ejemplo muestra cómo extraer imágenes de un documento PDF.

// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Añadir ruta del archivo de entrada
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Establecer la ruta del directorio de salida
options.AddOutput(new DirectoryData("path_to_results_directory"));
// Ejecutar el proceso
var results = PdfExtractor.Extract(options);
// Obtener la ruta del resultado de la imagen
var imageExtracted = results.ResultCollection[0].ToFile();

El ejemplo muestra cómo extraer imágenes de un documento PDF a flujos sin carpeta.

// Crear ExtractImagesOptions para establecer las instrucciones
var options = new ExtractImagesOptions();
// Añadir ruta del archivo de entrada
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// No se establece salida – los resultados se escribirán en flujos
// Ejecutar el proceso
var results = PdfExtractor.Extract(options);
// Obtener el flujo
var ms = results.ResultCollection[0].ToStream();
// Copiar los datos a un archivo para la demostración
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Exceptions

ArgumentException

Si no se establecen las opciones.

Extract(ExtractFormDataToDsvOptions)

Extrae datos de formulario de un documento PDF.

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

Parameters

Returns

ResultContainer : Un objeto que contiene el resultado de la operación.

Examples

El ejemplo muestra cómo exportar valores de formulario a un archivo CSV.

// Crear ExtractFormDataToDsvOptions para establecer las instrucciones
var options = new ExtractFormDataToDsvOptions(',', true);
// Añadir ruta del archivo de entrada
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Establecer la ruta del archivo de salida
options.AddOutput(new FileData("path_to_result_csv_file.csv"));
// Ejecutar el proceso
PdfExtractor.Extract(options);

El ejemplo muestra cómo exportar valores de formulario a un archivo TSV y establecer propiedades.

// Crear ExtractFormDataToDsvOptions para establecer las instrucciones
var options = new ExtractFormDataToDsvOptions();
//Establecer delimitador
options.Delimiter = '\t';
//Añadir nombres de campo al resultado
options.AddFieldName = true;
// Añadir ruta del archivo de entrada
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Establecer la ruta del archivo de salida
options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
// Ejecutar el proceso
PdfExtractor.Extract(options);

Exceptions

ArgumentException

Si no se establecen las opciones.

Extract(ExtractPropertiesOptions)

Extrae propiedades de un documento PDF.

public static PdfProperties Extract(ExtractPropertiesOptions options)

Parameters

Returns

PdfProperties : Un objeto que contiene el resultado de la operación.

Examples

El ejemplo muestra cómo extraer propiedades (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de un archivo PDF.

// Crear ExtractPropertiesOptions para establecer el archivo de entrada
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Ejecutar el proceso y obtener las propiedades
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

El ejemplo muestra cómo extraer propiedades (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) de un flujo PDF.

// Crear ExtractPropertiesOptions para establecer el flujo de entrada
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Ejecutar el proceso y obtener las propiedades
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

El ejemplo muestra cómo extraer propiedades de un archivo PDF de la forma más breve posible.

// Ejecutar el proceso y obtener las propiedades
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Exceptions

ArgumentException

Si no se establecen las opciones.

Namespace: Documentize Assembly: Documentize.dll

 Español