Classe PdfExtractor

Informazione

Rappresenta la funzionalità di base per estrarre testo, immagini e altri tipi di contenuti che possono apparire nelle pagine dei documenti PDF.

public abstract class PdfExtractor : IDisposable

Ereditarietà

objectPdfExtractor

Derivato

Implementa

Membri ereditati

Esempi

L’esempio dimostra come estrarre il contenuto di testo di un documento PDF.

// crea un oggetto TextExtractor per estrarre i contenuti PDF
using (TextExtractor extractor = new TextExtractor())
{
    // crea un oggetto TextExtractorOptions per impostare le istruzioni
    textExtractorOptions = new TextExtractorOptions();

    // aggiungi il percorso del file di input
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // esegui il processo di estrazione
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // ottieni il testo estratto dall'oggetto ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Osservazioni

L’oggetto Documentize.TextExtractor viene utilizzato per estrarre testo, o Documentize.ImageExtractor per estrarre immagini.

Costruttori

PdfExtractor()

protected PdfExtractor()

Metodi

Dispose()

Implementazione di IDisposable. In realtà, non è necessario per PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Avvia il processo di PdfExtractor con i parametri specificati.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parametri

  • pdfExtractorOptions IPluginOptions: Un oggetto opzioni contenente istruzioni per il PdfExtractor.

Ritorna

ResultContainer : Un oggetto ResultContainer contenente il risultato dell’estrazione.

Namespace: Documentize Assembly: Documentize.dll

 Italiano