Clase TextExtractorOptions
Representa opciones de extracción de texto para el complemento Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Herencia
object ← PdfExtractorOptions ← TextExtractorOptions
Implementa
Miembros heredados
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ejemplos
El ejemplo demuestra cómo extraer el contenido textual del documento PDF.
// crear objeto TextExtractor para extraer contenidos PDF
using (TextExtractor extractor = new TextExtractor())
{
// crear objeto TextExtractorOptions para establecer TextFormattingMode (Puro, o Crudo - predeterminado)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// agregar la ruta del archivo de entrada a las fuentes de datos
extractorOptions.AddInput(new FileDataSource(inputPath));
// realizar el proceso de extracción
ResultContainer resultContainer = extractor.Process(extractorOptions);
// obtener el texto extraído del objeto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Observaciones
El objeto Documentize.TextExtractorOptions se utiliza para establecer Documentize.TextExtractorOptions.TextFormattingMode y otras opciones para la operación de extracción de texto. Además, hereda funciones para agregar datos (archivos, flujos) que representan documentos PDF de entrada.
Constructores
TextExtractorOptions(TextFormattingMode)
Inicializa una nueva instancia del objeto Documentize.TextExtractorOptions para el modo de formato de texto especificado.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Parámetros
formattingMode
TextExtractorOptions.TextFormattingMode: Valor del modo de formato de texto.
TextExtractorOptions()
Inicializa una nueva instancia del objeto Documentize.TextExtractorOptions con el modo de formato de texto ‘Crudo’ (predeterminado).
public TextExtractorOptions()
Propiedades
FormattingMode
Obtiene el modo de formato.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Valor de la propiedad
TextExtractorOptions.TextFormattingMode
OperationName
Devuelve el nombre de la operación.
public override string OperationName { get; }
Valor de la propiedad
Namespace: Documentize Assembly: Documentize.dll