Klasa PdfExtractor
Info
Reprezentuje podstawową funkcjonalność do ekstrakcji tekstu, obrazów i innych typów treści, które mogą występować na stronach dokumentów PDF.
public abstract class PdfExtractor : IDisposable
Dziedziczenie
Pochodne
Implementuje
Członkowie dziedziczeni
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Przykłady
Przykład pokazuje, jak wyodrębnić treść tekstową z dokumentu PDF.
// utwórz obiekt TextExtractor, aby wyodrębnić zawartość PDF
using (TextExtractor extractor = new TextExtractor())
{
// utwórz obiekt TextExtractorOptions, aby ustawić instrukcje
textExtractorOptions = new TextExtractorOptions();
// dodaj ścieżkę do pliku wejściowego
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// wykonaj proces ekstrakcji
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// uzyskaj wyodrębniony tekst z obiektu ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Uwagi
Obiekt Documentize.TextExtractor jest używany do ekstrakcji tekstu, a Documentize.ImageExtractor do ekstrakcji obrazów.
Konstruktory
PdfExtractor()
protected PdfExtractor()
Metody
Dispose()
Implementacja IDisposable. Właściwie, nie jest to konieczne dla PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Rozpoczyna przetwarzanie PdfExtractor z określonymi parametrami.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parametry
pdfExtractorOptions
IPluginOptions: Obiekt opcji zawierający instrukcje dla PdfExtractor.
Zwraca
ResultContainer : Obiekt ResultContainer zawierający rezultat ekstrakcji.
Namespace: Documentize Assembly: Documentize.dll