Classe TextExtractorOptions
Représente les options d’extraction de texte pour le plugin Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Héritage
object ← PdfExtractorOptions ← TextExtractorOptions
Implémente
Membres hérités
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemples
L’exemple démontre comment extraire le contenu textuel d’un document PDF.
// créer un objet TextExtractor pour extraire le contenu PDF
using (TextExtractor extractor = new TextExtractor())
{
// créer un objet TextExtractorOptions pour définir TextFormattingMode (Pure, ou Raw - par défaut)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// ajouter le chemin du fichier d'entrée aux sources de données
extractorOptions.AddInput(new FileDataSource(inputPath));
// effectuer le processus d'extraction
ResultContainer resultContainer = extractor.Process(extractorOptions);
// obtenir le texte extrait de l'objet ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Remarques
L’objet Documentize.TextExtractorOptions est utilisé pour définir Documentize.TextExtractorOptions.TextFormattingMode et d’autres options pour l’opération d’extraction de texte. De plus, il hérite des fonctions pour ajouter des données (fichiers, flux) représentant des documents PDF d’entrée.
Constructeurs
TextExtractorOptions(TextFormattingMode)
Initialise une nouvelle instance de l’objet Documentize.TextExtractorOptions pour le mode de formatage de texte spécifié.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Paramètres
formattingMode
TextExtractorOptions.TextFormattingMode: Valeur du mode de formatage de texte.
TextExtractorOptions()
Initialise une nouvelle instance de l’objet Documentize.TextExtractorOptions avec le mode de formatage de texte ‘Raw’ (par défaut).
public TextExtractorOptions()
Propriétés
FormattingMode
Obtient le mode de formatage.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Valeur de la propriété
TextExtractorOptions.TextFormattingMode
OperationName
Renvoie le nom de l’opération.
public override string OperationName { get; }
Valeur de la propriété
Namespace: Documentize Assembly: Documentize.dll