Class TextExtractor

信息

表示 Documentize.TextExtractor 插件。用于从 PDF 文档中提取文本。

public static class TextExtractor

继承

objectTextExtractor

继承成员

示例

该示例演示如何提取 PDF 文档的文本内容。

// 创建 TextExtractorOptions 对象以设置指令
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 执行处理
var results = TextExtractor.Process(options);
// 从 ResultContainer 对象中获取提取的文本
var textExtracted = results.ResultCollection[0].ToString();

方法

Process(TextExtractorOptions)

从 PDF 文档中提取文本。

public static ResultContainer Process(TextExtractorOptions options)

参数

返回

ResultContainer : 包含提取结果的对象。

异常

ArgumentException

如果未设置选项。

命名空间: Documentize 程序集: Documentize.dll

 中文