Class TextExtractor

Информация

Представляет плагин Documentize.TextExtractor. Используется для извлечения текста из PDF-документов.

public static class TextExtractor

Наследование

objectTextExtractor

Унаследованные члены

Примеры

Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.

// Создание объекта TextExtractorOptions для установки инструкций
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Добавление пути к входному файлу
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Выполнение процесса
var results = TextExtractor.Process(options);
// Получение извлеченного текста из объекта ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Методы

Process(TextExtractorOptions)

Извлечение текста из PDF-документа.

public static ResultContainer Process(TextExtractorOptions options)

Параметры

  • options TextExtractorOptions: Объект параметров, содержащий инструкции для операции.

Возвращает

ResultContainer : Объект, содержащий результат извлечения.

Исключения

ArgumentException

Если параметры не установлены.

Пространство имен: Documentize Сборка: Documentize.dll

 Русский