Class TextExtractor

Information

Représente le plugin Documentize.TextExtractor. Utilisé pour extraire du texte à partir de documents PDF.

public static class TextExtractor

Héritage

objectTextExtractor

Membres hérités

Exemples

L’exemple démontre comment extraire le contenu textuel d’un document PDF.

// Créer un objet TextExtractorOptions pour définir des instructions
var options = new TextExtractorOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Exécuter le processus
var results = TextExtractor.Process(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

L’exemple démontre comment extraire le contenu textuel d’un document PDF avec TextFormattingMode.

// Créer un objet TextExtractorOptions pour définir TextFormattingMode
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Exécuter le processus
var results = TextExtractor.Process(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Méthodes

Process(TextExtractorOptions)

Extraire du texte d’un document PDF.

public static ResultContainer Process(TextExtractorOptions options)

Paramètres

Retourne

ResultContainer : Un objet contenant le résultat de l’extraction.

Exceptions

ArgumentException

Si les options ne sont pas définies.

Namespace: Documentize Assembly: Documentize.dll

 Français