Class TextExtractor
信息
表示 Documentize.TextExtractor 插件。用于从 PDF 文档中提取文本。
public static class TextExtractor
继承
继承成员
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
示例
该示例演示如何提取 PDF 文档的文本内容。
// 创建 TextExtractorOptions 对象以设置指令
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 执行处理
var results = TextExtractor.Process(options);
// 从 ResultContainer 对象中获取提取的文本
var textExtracted = results.ResultCollection[0].ToString();
方法
Process(TextExtractorOptions)
从 PDF 文档中提取文本。
public static ResultContainer Process(TextExtractorOptions options)
参数
options
TextExtractorOptions: 包含操作指令的选项对象。
返回
ResultContainer : 包含提取结果的对象。
异常
如果未设置选项。
命名空间: Documentize 程序集: Documentize.dll