Class TextExtractor

Información

Representa el plugin Documentize.TextExtractor. Usado para extraer texto de documentos PDF.

public static class TextExtractor

Herencia

objectTextExtractor

Miembros heredados

Ejemplos

El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF.

// Crear un objeto TextExtractorOptions para establecer instrucciones
var options = new TextExtractorOptions();
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = TextExtractor.Process(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF con TextFormattingMode.

// Crear un objeto TextExtractorOptions para establecer TextFormattingMode
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Agregar la ruta del archivo de entrada
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Realizar el proceso
var results = TextExtractor.Process(options);
// Obtener el texto extraído del objeto ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Métodos

Process(TextExtractorOptions)

Extraer texto de un documento PDF.

public static ResultContainer Process(TextExtractorOptions options)

Parámetros

Retorna

ResultContainer : Un objeto que contiene el resultado de la extracción.

Excepciones

ArgumentException

Si las opciones no están configuradas.

Namespace: Documentize Assembly: Documentize.dll

 Español