Class PdfExtractor

Information

Représente le plugin Documentize.PdfExtractor. Utilisé pour extraire le texte, les images et les données de formulaire à partir de documents PDF.

public static class PdfExtractor

Héritage

objectPdfExtractor

Membres hérités

Exemples

L’exemple démontre comment extraire le contenu textuel d’un document PDF.

// Créer un objet ExtractTextOptions pour définir les instructions
var options = new ExtractTextOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Effectuer le processus
var results = PdfExtractor.ExtractText(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

L’exemple démontre comment extraire le contenu textuel d’un document PDF avec TextFormattingMode.

// Créer un objet ExtractTextOptions pour définir TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Effectuer le processus
var results = PdfExtractor.ExtractText(options);
// Obtenir le texte extrait de l'objet ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

L’exemple démontre comment extraire des images d’un document PDF.

// Créer ExtractImagesOptions pour définir les instructions
var options = new ExtractImagesOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Définir le chemin du répertoire de sortie
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Effectuer le processus
var results = PdfExtractor.ExtractImages(options);
// Obtenir le chemin de l'image résultante
var imageExtracted = results.ResultCollection[0].ToFile();

L’exemple démontre comment extraire des images d’un document PDF vers des flux sans dossier.

// Créer ExtractImagesOptions pour définir les instructions
var options = new ExtractImagesOptions();
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Ne pas définir de sortie - cela écrira les résultats dans des flux
// Effectuer le processus
var results = PdfExtractor.ExtractImages(options);
// Obtenir le Stream
var ms = results.ResultCollection[0].ToStream();
// Copier les données dans un fichier pour la démonstration
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

L’exemple démontre comment exporter des valeurs de formulaire vers un fichier CSV.

// Créer un objet ExtractFormDataToDsvOptions pour définir les instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Ajouter le chemin du fichier d'entrée
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Définir le chemin du fichier de sortie
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Effectuer le processus
PdfExtractor.ExtractFormData(options);

Méthodes

ExtractFormData(ExtractFormDataToDsvOptions)

Extraire les données de formulaire d’un document PDF.

public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)

Paramètres

Retours

ResultContainer : Un objet contenant le résultat de l’opération.

Exceptions

ArgumentException

Si les options ne sont pas définies.

ExtractImages(ExtractImagesOptions)

Extraire des images d’un document PDF.

public static ResultContainer ExtractImages(ExtractImagesOptions options)

Paramètres

Retours

ResultContainer : Un objet contenant le résultat de l’opération.

Exceptions

ArgumentException

Si les options ne sont pas définies.

ExtractText(ExtractTextOptions)

Extraire du texte d’un document PDF.

public static ResultContainer ExtractText(ExtractTextOptions options)

Paramètres

  • options ExtractTextOptions: Un objet options contenant les instructions pour l’opération.

Retours

ResultContainer : Un objet contenant le résultat de l’extraction.

Exceptions

ArgumentException

Si les options ne sont pas définies.

Namespace: Documentize Assembly: Documentize.dll

 Français