PdfExtractor کلاس
Info
عملکرد پایه برای استخراج متن، تصاویر و سایر انواع محتوا که ممکن است در صفحات اسناد PDF وجود داشته باشد را نشان میدهد.
public abstract class PdfExtractor : IDisposable
وراثت
مشتقات
پیادهسازی
اعضای وراثتی
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
مثالها
این مثال نحوه استخراج محتوای متنی از سند PDF را نشان میدهد.
// ایجاد شیء TextExtractor برای استخراج محتوای PDF
using (TextExtractor extractor = new TextExtractor())
{
// ایجاد شیء TextExtractorOptions برای تنظیم دستورالعملها
textExtractorOptions = new TextExtractorOptions();
// افزودن مسیر فایل ورودی
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// انجام فرآیند استخراج
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// استخراج متن را از شیء ResultContainer دریافت کنید
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
یادداشتها
شیء Documentize.TextExtractor برای استخراج متن و Documentize.ImageExtractor برای استخراج تصاویر استفاده میشود.
سازندگان
PdfExtractor()
protected PdfExtractor()
متدها
Dispose()
پیادهسازی IDisposable. در واقع، برای PdfExtractor ضروری نیست.
public void Dispose()
Process(IPluginOptions)
پردازش PdfExtractor را با پارامترهای مشخص شده آغاز میکند.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
پارامترها
pdfExtractorOptions
IPluginOptions: یک شیء گزینه شامل دستورالعملها برای PdfExtractor.
بازگشت
ResultContainer : یک شیء ResultContainer که نتیجه استخراج را شامل میشود.
فضا نام: Documentize کتابخانه: Documentize.dll