Class PdfExtractor
معلومات
يمثل الوظائف الأساسية لاستخراج النصوص والصور وأنواع أخرى من المحتوى التي قد تحدث على صفحات مستندات PDF.
public abstract class PdfExtractor : IDisposable
الوراثة
المشتقات
ينفذ
الأعضاء الموروثة
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
أمثلة
يوضح المثال كيفية استخراج محتوى النص من مستند PDF.
// إنشاء كائن TextExtractor لاستخراج محتويات PDF
using (TextExtractor extractor = new TextExtractor())
{
// إنشاء كائن TextExtractorOptions لتعيين التعليمات
textExtractorOptions = new TextExtractorOptions();
// إضافة مسار ملف الإدخال
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// إجراء عملية الاستخراج
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// الحصول على النص المستخرج من كائن ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
الملاحظات
يستخدم كائن Documentize.TextExtractor لاستخراج النصوص، أو Documentize.ImageExtractor لاستخراج الصور.
المنشئات
PdfExtractor()
protected PdfExtractor()
الدوال
Dispose()
تنفيذ واجهة IDisposable. في الواقع، ليس من الضروري أن يكون ذلك لكائن PdfExtractor.
public void Dispose()
Process(IPluginOptions)
يبدأ معالجة PdfExtractor بالمعلمات المحددة.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
المعلمات
pdfExtractorOptions
IPluginOptions: كائن خيارات يحتوي على تعليمات لـ PdfExtractor.
الإرجاع
ResultContainer : كائن ResultContainer يحتوي على نتيجة الاستخراج.
Namespace: Documentize Assembly: Documentize.dll