Clase PdfExtractor
Información
Representa la funcionalidad base para extraer texto, imágenes y otros tipos de contenido que pueden aparecer en las páginas de documentos PDF.
public abstract class PdfExtractor : IDisposable
Herencia
Derivados
Implementa
Miembros heredados
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ejemplos
El ejemplo demuestra cómo extraer el contenido de texto de un documento PDF.
// crear objeto TextExtractor para extraer contenidos PDF
using (TextExtractor extractor = new TextExtractor())
{
// crear objeto TextExtractorOptions para establecer instrucciones
textExtractorOptions = new TextExtractorOptions();
// agregar ruta del archivo de entrada
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// realizar el proceso de extracción
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// obtener el texto extraído del objeto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Observaciones
El objeto Documentize.TextExtractor se utiliza para extraer texto, o Documentize.ImageExtractor para extraer imágenes.
Constructores
PdfExtractor()
protected PdfExtractor()
Métodos
Dispose()
Implementación de IDisposable. En realidad, no es necesario para PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Inicia el procesamiento de PdfExtractor con los parámetros especificados.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parámetros
pdfExtractorOptions
IPluginOptions: Un objeto de opciones que contiene instrucciones para el PdfExtractor.
Retorna
ResultContainer : Un objeto ResultContainer que contiene el resultado de la extracción.
Namespace: Documentize Assembly: Documentize.dll