Klasa PdfExtractor

Info

Reprezentuje podstawową funkcjonalność do ekstrakcji tekstu, obrazów i innych typów treści, które mogą występować na stronach dokumentów PDF.

public abstract class PdfExtractor : IDisposable

Dziedziczenie

obiektPdfExtractor

Pochodne

Implementuje

Członkowie dziedziczeni

Przykłady

Przykład pokazuje, jak wyodrębnić treść tekstową z dokumentu PDF.

// utwórz obiekt TextExtractor, aby wyodrębnić zawartość PDF
using (TextExtractor extractor = new TextExtractor())
{
    // utwórz obiekt TextExtractorOptions, aby ustawić instrukcje
    textExtractorOptions = new TextExtractorOptions();

    // dodaj ścieżkę do pliku wejściowego
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // wykonaj proces ekstrakcji
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // uzyskaj wyodrębniony tekst z obiektu ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Uwagi

Obiekt Documentize.TextExtractor jest używany do ekstrakcji tekstu, a Documentize.ImageExtractor do ekstrakcji obrazów.

Konstruktory

PdfExtractor()

protected PdfExtractor()

Metody

Dispose()

Implementacja IDisposable. Właściwie, nie jest to konieczne dla PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Rozpoczyna przetwarzanie PdfExtractor z określonymi parametrami.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Parametry

  • pdfExtractorOptions IPluginOptions: Obiekt opcji zawierający instrukcje dla PdfExtractor.

Zwraca

ResultContainer : Obiekt ResultContainer zawierający rezultat ekstrakcji.

Namespace: Documentize Assembly: Documentize.dll

 Polski