خيارات استخراج النص من الفئة

معلومات

يمثل خيارات استخراج النص من الإضافة Documentize.TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

الوراثة

objectPdfExtractorOptionsTextExtractorOptions

التنفيذات

الأعضاء الموروثة

أمثلة

تظهر المثال كيفية استخراج محتوى النص من مستند PDF.

// إنشاء كائن TextExtractor لاستخراج محتويات PDF
using (TextExtractor extractor = new TextExtractor())
{
    // إنشاء كائن TextExtractorOptions لتعيين TextFormattingMode (نظيف أو خام - افتراضي)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // إضافة مسار ملف الإدخال إلى مصادر البيانات
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // تنفيذ عملية الاستخراج
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // الحصول على النص المستخرج من كائن ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

ملاحظات

يستخدم كائن Documentize.TextExtractorOptions لتعيين Documentize.TextExtractorOptions.TextFormattingMode وخيارات أخرى لعملية استخراج النص. أيضًا، يرث وظائف لإضافة البيانات (الملفات، التدفقات) التي تمثل مستندات PDF المدخلة.

المنشئون

TextExtractorOptions(TextFormattingMode)

يبدأ مثيل جديد من كائن Documentize.TextExtractorOptions لوضع تنسيق النص المحدد.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

المعلمات

TextExtractorOptions()

يبدأ مثيل جديد من كائن Documentize.TextExtractorOptions مع وضع تنسيق النص ‘خام’ (افتراضي).

public TextExtractorOptions()

الخصائص

FormattingMode

يحصل على وضع التنسيق.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

قيمة الخاصية

TextExtractorOptions.TextFormattingMode

OperationName

يعيد اسم العملية.

public override string OperationName { get; }

قيمة الخاصية

string

اسم النطاق: Documentize التجميع: Documentize.dll

 عربي