Класс TextExtractorOptions
Представляет параметры извлечения текста для плагина Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Наследование
object ← PdfExtractorOptions ← TextExtractorOptions
Реализует
Унаследованные члены
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Примеры
Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.
// создать объект TextExtractor для извлечения содержимого PDF
using (TextExtractor extractor = new TextExtractor())
{
// создать объект TextExtractorOptions для установки TextFormattingMode (Pure или Raw - по умолчанию)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// добавить путь к входному файлу в источники данных
extractorOptions.AddInput(new FileDataSource(inputPath));
// выполнить процесс извлечения
ResultContainer resultContainer = extractor.Process(extractorOptions);
// получить извлеченный текст из объекта ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Замечания
Объект Documentize.TextExtractorOptions используется для установки Documentize.TextExtractorOptions.TextFormattingMode и других параметров для операции извлечения текста. Кроме того, он наследует функции для добавления данных (файлов, потоков), представляющих входные PDF-документы.
Конструкторы
TextExtractorOptions(TextFormattingMode)
Инициализирует новый экземпляр объекта Documentize.TextExtractorOptions для указанного режима форматирования текста.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Параметры
formattingMode
TextExtractorOptions.TextFormattingMode: Значение режима форматирования текста.
TextExtractorOptions()
Инициализирует новый экземпляр объекта Documentize.TextExtractorOptions с режимом форматирования текста ‘Raw’ (по умолчанию).
public TextExtractorOptions()
Свойства
FormattingMode
Получает режим форматирования.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Значение свойства
TextExtractorOptions.TextFormattingMode
OperationName
Возвращает имя операции.
public override string OperationName { get; }
Значение свойства
Пространство имен: Documentize Сборка: Documentize.dll