类 TextExtractorOptions

信息

表示 Documentize.TextExtractor 插件的文本提取选项。

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

继承

objectPdfExtractorOptionsTextExtractorOptions

实现

继承成员

示例

该示例演示如何提取 PDF 文档的文本内容。

// 创建 TextExtractor 对象以提取 PDF 内容
using (TextExtractor extractor = new TextExtractor())
{
    // 创建 TextExtractorOptions 对象以设置 TextFormattingMode(Pure 或 Raw - 默认)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // 将输入文件路径添加到数据源
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // 执行提取过程
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // 从 ResultContainer 对象中获取提取的文本
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

备注

Documentize.TextExtractorOptions 对象用于设置 Documentize.TextExtractorOptions.TextFormattingMode 和其他文本提取操作的选项。 此外,它继承了添加数据(文件、流)以表示输入 PDF 文档的功能。

构造函数

TextExtractorOptions(TextFormattingMode)

初始化 Documentize.TextExtractorOptions 对象的新实例,指定文本格式模式。

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

参数

TextExtractorOptions()

使用 ‘Raw’(默认)文本格式模式初始化 Documentize.TextExtractorOptions 对象的新实例。

public TextExtractorOptions()

属性

FormattingMode

获取格式模式。

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

属性值

TextExtractorOptions.TextFormattingMode

OperationName

返回操作的名称。

public override string OperationName { get; }

属性值

string

命名空间: Documentize 程序集: Documentize.dll

 中文