Class PdfExtractor

معلومات

يمثل الوظائف الأساسية لاستخراج النصوص والصور وأنواع أخرى من المحتوى التي قد تحدث على صفحات مستندات PDF.

public abstract class PdfExtractor : IDisposable

الوراثة

objectPdfExtractor

المشتقات

ينفذ

الأعضاء الموروثة

أمثلة

يوضح المثال كيفية استخراج محتوى النص من مستند PDF.

// إنشاء كائن TextExtractor لاستخراج محتويات PDF
using (TextExtractor extractor = new TextExtractor())
{
    // إنشاء كائن TextExtractorOptions لتعيين التعليمات
    textExtractorOptions = new TextExtractorOptions();

    // إضافة مسار ملف الإدخال
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // إجراء عملية الاستخراج
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // الحصول على النص المستخرج من كائن ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

الملاحظات

يستخدم كائن Documentize.TextExtractor لاستخراج النصوص، أو Documentize.ImageExtractor لاستخراج الصور.

المنشئات

PdfExtractor()

protected PdfExtractor()

الدوال

Dispose()

تنفيذ واجهة IDisposable. في الواقع، ليس من الضروري أن يكون ذلك لكائن PdfExtractor.

public void Dispose()

Process(IPluginOptions)

يبدأ معالجة PdfExtractor بالمعلمات المحددة.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

المعلمات

  • pdfExtractorOptions IPluginOptions: كائن خيارات يحتوي على تعليمات لـ PdfExtractor.

الإرجاع

ResultContainer : كائن ResultContainer يحتوي على نتيجة الاستخراج.

Namespace: Documentize Assembly: Documentize.dll

 عربي