Classe PdfExtractor

Information

Représente la fonctionnalité de base pour extraire du texte, des images et d’autres types de contenu qui peuvent apparaître sur les pages des documents PDF.

public abstract class PdfExtractor : IDisposable

Héritage

objectPdfExtractor

Dérivé

Implémente

Membres hérités

Exemples

L’exemple démontre comment extraire le contenu texte d’un document PDF.

// créer un objet TextExtractor pour extraire le contenu PDF
using (TextExtractor extractor = new TextExtractor())
{
    // créer un objet TextExtractorOptions pour définir les instructions
    textExtractorOptions = new TextExtractorOptions();

    // ajouter le chemin du fichier d'entrée
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // effectuer le processus d'extraction
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // obtenir le texte extrait de l'objet ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Remarques

L’objet Documentize.TextExtractor est utilisé pour extraire du texte, ou Documentize.ImageExtractor pour extraire des images.

Constructeurs

PdfExtractor()

protected PdfExtractor()

Méthodes

Dispose()

Implémentation de IDisposable. En réalité, ce n’est pas nécessaire pour PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Démarre le traitement de PdfExtractor avec les paramètres spécifiés.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Paramètres

  • pdfExtractorOptions IPluginOptions: Un objet d’options contenant des instructions pour le PdfExtractor.

Renvoie

ResultContainer : Un objet ResultContainer contenant le résultat de l’extraction.

Namespace: Documentize Assembly: Documentize.dll

 Français