Class TextExtractor
Информация
Представляет плагин Documentize.TextExtractor. Используется для извлечения текста из PDF-документов.
public static class TextExtractor
Наследование
Унаследованные члены
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Примеры
Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.
// Создание объекта TextExtractorOptions для установки инструкций
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Добавление пути к входному файлу
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Выполнение процесса
var results = TextExtractor.Process(options);
// Получение извлеченного текста из объекта ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Методы
Process(TextExtractorOptions)
Извлечение текста из PDF-документа.
public static ResultContainer Process(TextExtractorOptions options)
Параметры
options
TextExtractorOptions: Объект параметров, содержащий инструкции для операции.
Возвращает
ResultContainer : Объект, содержащий результат извлечения.
Исключения
Если параметры не установлены.
Пространство имен: Documentize Сборка: Documentize.dll