类 PdfExtractor

信息

表示提取文本、图像和可能出现在PDF文档页面上的其他类型内容的基本功能。

public abstract class PdfExtractor : IDisposable

继承

objectPdfExtractor

派生

实现

继承成员

示例

该示例演示如何提取PDF文档的文本内容。

// 创建TextExtractor对象以提取PDF内容
using (TextExtractor extractor = new TextExtractor())
{
    // 创建TextExtractorOptions对象以设置指令
    textExtractorOptions = new TextExtractorOptions();

    // 添加输入文件路径
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // 执行提取过程
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // 从ResultContainer对象中获取提取的文本
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

备注

Documentize.TextExtractor对象用于提取文本,或Documentize.ImageExtractor用于提取图像。

构造函数

PdfExtractor()

protected PdfExtractor()

方法

Dispose()

IDisposable的实现。实际上,对于PdfExtractor来说不是必须的。

public void Dispose()

Process(IPluginOptions)

使用指定参数开始PdfExtractor处理。

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

参数

  • pdfExtractorOptions IPluginOptions: 一个包含PdfExtractor指令的选项对象。

返回

ResultContainer : 一个包含提取结果的ResultContainer对象。

命名空间: Documentize 程序集: Documentize.dll

 中文