Класс PdfExtractor
Информация
Представляет базовую функциональность для извлечения текста, изображений и других типов содержимого, которые могут встречаться на страницах PDF-документов.
public abstract class PdfExtractor : IDisposable
Наследование
Производные
Реализует
Унаследованные члены
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Примеры
Пример демонстрирует, как извлечь текстовое содержимое PDF-документа.
// создание объекта TextExtractor для извлечения содержимого PDF
using (TextExtractor extractor = new TextExtractor())
{
// создание объекта TextExtractorOptions для установки инструкций
textExtractorOptions = new TextExtractorOptions();
// добавление пути к входному файлу
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// выполнение процесса извлечения
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// получение извлеченного текста из объекта ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Замечания
Объект Documentize.TextExtractor используется для извлечения текста, а Documentize.ImageExtractor — для извлечения изображений.
Конструкторы
PdfExtractor()
protected PdfExtractor()
Методы
Dispose()
Реализация IDisposable. На самом деле, это не требуется для PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Запускает процесс PdfExtractor с указанными параметрами.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Параметры
pdfExtractorOptions
IPluginOptions: Объект параметров, содержащий инструкции для PdfExtractor.
Возвращает
ResultContainer : Объект ResultContainer, содержащий результат извлечения.
Namespace: Documentize Assembly: Documentize.dll