Класс PdfExtractor

Информация

Представляет базовую функциональность для извлечения текста, изображений и других типов содержимого, которые могут встречаться на страницах PDF-документов.

public abstract class PdfExtractor : IDisposable

Наследование

objectPdfExtractor

Производные

Реализует

Унаследованные члены

Примеры

Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.

// создание объекта TextExtractor для извлечения содержимого PDF
using (TextExtractor extractor = new TextExtractor())
{
    // создание объекта TextExtractorOptions для установки инструкций
    textExtractorOptions = new TextExtractorOptions();

    // добавление пути к входному файлу
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // выполнение процесса извлечения
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // получение извлеченного текста из объекта ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Замечания

Объект Documentize.TextExtractor используется для извлечения текста, а Documentize.ImageExtractor — для извлечения изображений.

Конструкторы

PdfExtractor()

protected PdfExtractor()

Методы

Dispose()

Реализация IDisposable. На самом деле, это не требуется для PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Запускает процесс PdfExtractor с указанными параметрами.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Параметры

  • pdfExtractorOptions IPluginOptions: Объект параметров, содержащий инструкции для PdfExtractor.

Возвращает

ResultContainer : Объект ResultContainer, содержащий результат извлечения.

Namespace: Documentize Assembly: Documentize.dll

 Русский