类 PdfExtractor
信息
表示提取文本、图像和可能出现在PDF文档页面上的其他类型内容的基本功能。
public abstract class PdfExtractor : IDisposable
继承
派生
实现
继承成员
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
示例
该示例演示如何提取PDF文档的文本内容。
// 创建TextExtractor对象以提取PDF内容
using (TextExtractor extractor = new TextExtractor())
{
// 创建TextExtractorOptions对象以设置指令
textExtractorOptions = new TextExtractorOptions();
// 添加输入文件路径
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// 执行提取过程
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// 从ResultContainer对象中获取提取的文本
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
备注
Documentize.TextExtractor对象用于提取文本,或Documentize.ImageExtractor用于提取图像。
构造函数
PdfExtractor()
protected PdfExtractor()
方法
Dispose()
IDisposable的实现。实际上,对于PdfExtractor来说不是必须的。
public void Dispose()
Process(IPluginOptions)
使用指定参数开始PdfExtractor处理。
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
参数
pdfExtractorOptions
IPluginOptions: 一个包含PdfExtractor指令的选项对象。
返回
ResultContainer : 一个包含提取结果的ResultContainer对象。
命名空间: Documentize 程序集: Documentize.dll