类 TextExtractorOptions
信息
表示 Documentize.TextExtractor 插件的文本提取选项。
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
继承
object ← PdfExtractorOptions ← TextExtractorOptions
实现
继承成员
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
示例
该示例演示如何提取 PDF 文档的文本内容。
// 创建 TextExtractor 对象以提取 PDF 内容
using (TextExtractor extractor = new TextExtractor())
{
// 创建 TextExtractorOptions 对象以设置 TextFormattingMode(Pure 或 Raw - 默认)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// 将输入文件路径添加到数据源
extractorOptions.AddInput(new FileDataSource(inputPath));
// 执行提取过程
ResultContainer resultContainer = extractor.Process(extractorOptions);
// 从 ResultContainer 对象中获取提取的文本
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
备注
Documentize.TextExtractorOptions 对象用于设置 Documentize.TextExtractorOptions.TextFormattingMode 和其他文本提取操作的选项。 此外,它继承了添加数据(文件、流)以表示输入 PDF 文档的功能。
构造函数
TextExtractorOptions(TextFormattingMode)
初始化 Documentize.TextExtractorOptions 对象的新实例,指定文本格式模式。
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
参数
formattingMode
TextExtractorOptions.TextFormattingMode: 文本格式模式值。
TextExtractorOptions()
使用 ‘Raw’(默认)文本格式模式初始化 Documentize.TextExtractorOptions 对象的新实例。
public TextExtractorOptions()
属性
FormattingMode
获取格式模式。
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
属性值
TextExtractorOptions.TextFormattingMode
OperationName
返回操作的名称。
public override string OperationName { get; }
属性值
命名空间: Documentize 程序集: Documentize.dll