Class PdfExtractor

信息

表示 Documentize.PdfExtractor 插件。用于从 PDF 文档中提取文本、图像、表单数据、属性(元数据)。

public static class PdfExtractor

继承

objectPdfExtractor

继承的成员

方法

Extract(ExtractTextOptions)

从 PDF 文档中提取文本。

public static string Extract(ExtractTextOptions options)

参数

返回值

string :提取的文本。

示例

示例演示如何从 PDF 文件中提取文本内容。

// 创建 ExtractTextOptions 对象以设置输入文件路径
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);

示例演示如何从 PDF 流中提取文本内容。

// 创建 ExtractTextOptions 对象以设置输入流
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);

示例演示如何使用 TextFormattingMode 提取 PDF 文档的文本内容。

// 创建 ExtractTextOptions 对象以设置输入文件路径和 TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);

示例演示如何以最简方式从 PDF 文件中提取文本。

// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

异常

ArgumentException

如果未设置 options。

Extract(ExtractImagesOptions)

从 PDF 文档中提取图像。

public static ResultContainer Extract(ExtractImagesOptions options)

参数

返回值

ResultContainer :包含操作结果的对象。

示例

示例演示如何从 PDF 文档中提取图像。

// 创建 ExtractImagesOptions 以设置指令
var options = new ExtractImagesOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出目录路径
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// 执行处理
var results = PdfExtractor.Extract(options);
// 获取图像结果的路径
var imageExtracted = results.ResultCollection[0].ToFile();

示例演示如何将图像提取为流(不写入文件夹)。

// 创建 ExtractImagesOptions 以设置指令
var options = new ExtractImagesOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 未设置输出——结果将写入流
// 执行处理
var results = PdfExtractor.Extract(options);
// 获取流
var ms = results.ResultCollection[0].ToStream();
// 为演示复制数据到文件
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

异常

ArgumentException

如果未设置 options。

Extract(ExtractFormDataToDsvOptions)

从 PDF 文档中提取表单数据。

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

参数

返回值

ResultContainer :包含操作结果的对象。

示例

示例演示如何将表单值导出为 CSV 文件。

// 创建 ExtractFormDataToDsvOptions 对象以设置指令
var options = new ExtractFormDataToDsvOptions(',', true);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// 执行处理
PdfExtractor.Extract(options);

异常

ArgumentException

如果未设置 options。

Extract(ExtractPropertiesOptions)

从 PDF 文档中提取属性。

public static PdfProperties Extract(ExtractPropertiesOptions options)

参数

返回值

PdfProperties :包含操作结果的对象。

示例

示例演示如何从 PDF 文件中提取属性(标题、作者、主题、关键字、页数)。

// 创建 ExtractPropertiesOptions 对象以设置输入文件
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

示例演示如何从 PDF 流中提取属性(标题、作者、主题、关键字、页数)。

// 创建 ExtractPropertiesOptions 对象以设置输入流
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

示例演示如何以最简方式从 PDF 文件中提取属性。

// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

异常

ArgumentException

如果未设置 options。

命名空间: Documentize 程序集: Documentize.dll

 中文