Class PdfExtractor
Représente le plugin Documentize.PdfExtractor. Utilisé pour extraire le texte, les images et les données de formulaire à partir de documents PDF.
public static class PdfExtractorHéritage
Membres hérités
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Exemples
L’exemple démontre comment extraire le contenu textuel d’un document PDF.
// Créer un objet ExtractTextOptions pour définir les instructions
var options = new ExtractTextOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Effectuer le processus
var results = PdfExtractor.ExtractText(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();L’exemple démontre comment extraire le contenu textuel d’un document PDF avec TextFormattingMode.
// Créer un objet ExtractTextOptions pour définir TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Effectuer le processus
var results = PdfExtractor.ExtractText(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();L’exemple démontre comment extraire des images d’un document PDF.
// Créer ExtractImagesOptions pour définir les instructions
var options = new ExtractImagesOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Définir le chemin du répertoire de sortie
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Effectuer le processus
var results = PdfExtractor.ExtractImages(options);
// Obtenir le chemin de l'image résultante
var imageExtracted = results.ResultCollection[0].ToFile();L’exemple démontre comment extraire des images d’un document PDF vers des flux sans dossier.
// Créer ExtractImagesOptions pour définir les instructions
var options = new ExtractImagesOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Ne pas définir de sortie - cela écrira les résultats dans des flux
// Effectuer le processus
var results = PdfExtractor.ExtractImages(options);
// Obtenir le Stream
var ms = results.ResultCollection[0].ToStream();
// Copier les données dans un fichier pour la démonstration
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}L’exemple démontre comment exporter des valeurs de formulaire vers un fichier CSV.
// Créer un objet ExtractFormDataToDsvOptions pour définir les instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Définir le chemin du fichier de sortie
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Effectuer le processus
PdfExtractor.ExtractFormData(options);Méthodes
ExtractFormData(ExtractFormDataToDsvOptions)
Extraire les données de formulaire d’un document PDF.
public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)Paramètres
optionsExtractFormDataToDsvOptions: Un objet options contenant les instructions pour l’opération.
Retours
ResultContainer : Un objet contenant le résultat de l’opération.
Exceptions
Si les options ne sont pas définies.
ExtractImages(ExtractImagesOptions)
Extraire des images d’un document PDF.
public static ResultContainer ExtractImages(ExtractImagesOptions options)Paramètres
optionsExtractImagesOptions: Un objet options contenant les instructions pour l’opération.
Retours
ResultContainer : Un objet contenant le résultat de l’opération.
Exceptions
Si les options ne sont pas définies.
ExtractText(ExtractTextOptions)
Extraire du texte d’un document PDF.
public static ResultContainer ExtractText(ExtractTextOptions options)Paramètres
optionsExtractTextOptions: Un objet options contenant les instructions pour l’opération.
Retours
ResultContainer : Un objet contenant le résultat de l’extraction.
Exceptions
Si les options ne sont pas définies.
Namespace: Documentize Assembly: Documentize.dll