Classe PdfExtractor
Informazione
Rappresenta la funzionalità di base per estrarre testo, immagini e altri tipi di contenuti che possono apparire nelle pagine dei documenti PDF.
public abstract class PdfExtractor : IDisposable
Ereditarietà
Derivato
Implementa
Membri ereditati
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Esempi
L’esempio dimostra come estrarre il contenuto di testo di un documento PDF.
// crea un oggetto TextExtractor per estrarre i contenuti PDF
using (TextExtractor extractor = new TextExtractor())
{
// crea un oggetto TextExtractorOptions per impostare le istruzioni
textExtractorOptions = new TextExtractorOptions();
// aggiungi il percorso del file di input
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// esegui il processo di estrazione
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// ottieni il testo estratto dall'oggetto ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Osservazioni
L’oggetto Documentize.TextExtractor viene utilizzato per estrarre testo, o Documentize.ImageExtractor per estrarre immagini.
Costruttori
PdfExtractor()
protected PdfExtractor()
Metodi
Dispose()
Implementazione di IDisposable. In realtà, non è necessario per PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Avvia il processo di PdfExtractor con i parametri specificati.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parametri
pdfExtractorOptions
IPluginOptions: Un oggetto opzioni contenente istruzioni per il PdfExtractor.
Ritorna
ResultContainer : Un oggetto ResultContainer contenente il risultato dell’estrazione.
Namespace: Documentize Assembly: Documentize.dll