Клас PdfExtractor
Info
Представляє базову функціональність для витягання тексту, зображень та інших типів вмісту, які можуть зустрічатися на сторінках PDF-документів.
public abstract class PdfExtractor : IDisposable
Наслідування
Походження
Реалізує
Спадковані члени
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Приклади
Цей приклад демонструє, як витягнути текстовий вміст PDF-документа.
// створити об'єкт TextExtractor для витягання вмісту PDF
using (TextExtractor extractor = new TextExtractor())
{
// створити об'єкт TextExtractorOptions для налаштування інструкцій
textExtractorOptions = new TextExtractorOptions();
// додати шлях до вхідного файлу
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// виконати процес витягання
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// отримати витягнений текст з об'єкта ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Зауваження
Об’єкт Documentize.TextExtractor використовується для витягання тексту, або Documentize.ImageExtractor для витягання зображень.
Конструктори
PdfExtractor()
protected PdfExtractor()
Методи
Dispose()
Реалізація IDisposable. На самом ділі, він не є необхідним для PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Починає обробку PdfExtractor з вказаними параметрами.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Параметри
pdfExtractorOptions
IPluginOptions: Об’єкт параметрів, що містить інструкції для PdfExtractor.
Повертає
ResultContainer: Об’єкт ResultContainer, що містить результат витягання.
Простір імен: Documentize
Збірка: Documentize.dll