Class PdfExtractor
信息
表示 Documentize.PdfExtractor 插件。用于从 PDF 文档中提取文本、图像、表单数据、属性(元数据)。
public static class PdfExtractor继承
继承的成员
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
方法
Extract(ExtractTextOptions)
从 PDF 文档中提取文本。
public static string Extract(ExtractTextOptions options)参数
optionsExtractTextOptions:包含操作指令的选项对象。
返回值
string :提取的文本。
示例
示例演示如何从 PDF 文件中提取文本内容。
// 创建 ExtractTextOptions 对象以设置输入文件路径
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);示例演示如何从 PDF 流中提取文本内容。
// 创建 ExtractTextOptions 对象以设置输入流
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);示例演示如何使用 TextFormattingMode 提取 PDF 文档的文本内容。
// 创建 ExtractTextOptions 对象以设置输入文件路径和 TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(options);示例演示如何以最简方式从 PDF 文件中提取文本。
// 执行处理并获取提取的文本
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));异常
如果未设置 options。
Extract(ExtractImagesOptions)
从 PDF 文档中提取图像。
public static ResultContainer Extract(ExtractImagesOptions options)参数
optionsExtractImagesOptions:包含操作指令的选项对象。
返回值
ResultContainer :包含操作结果的对象。
示例
示例演示如何从 PDF 文档中提取图像。
// 创建 ExtractImagesOptions 以设置指令
var options = new ExtractImagesOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出目录路径
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// 执行处理
var results = PdfExtractor.Extract(options);
// 获取图像结果的路径
var imageExtracted = results.ResultCollection[0].ToFile();示例演示如何将图像提取为流(不写入文件夹)。
// 创建 ExtractImagesOptions 以设置指令
var options = new ExtractImagesOptions();
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 未设置输出——结果将写入流
// 执行处理
var results = PdfExtractor.Extract(options);
// 获取流
var ms = results.ResultCollection[0].ToStream();
// 为演示复制数据到文件
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}异常
如果未设置 options。
Extract(ExtractFormDataToDsvOptions)
从 PDF 文档中提取表单数据。
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)参数
optionsExtractFormDataToDsvOptions:包含操作指令的选项对象。
返回值
ResultContainer :包含操作结果的对象。
示例
示例演示如何将表单值导出为 CSV 文件。
// 创建 ExtractFormDataToDsvOptions 对象以设置指令
var options = new ExtractFormDataToDsvOptions(',', true);
// 添加输入文件路径
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// 设置输出文件路径
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// 执行处理
PdfExtractor.Extract(options);异常
如果未设置 options。
Extract(ExtractPropertiesOptions)
从 PDF 文档中提取属性。
public static PdfProperties Extract(ExtractPropertiesOptions options)参数
optionsExtractPropertiesOptions:包含操作指令的选项对象。
返回值
PdfProperties :包含操作结果的对象。
示例
示例演示如何从 PDF 文件中提取属性(标题、作者、主题、关键字、页数)。
// 创建 ExtractPropertiesOptions 对象以设置输入文件
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;示例演示如何从 PDF 流中提取属性(标题、作者、主题、关键字、页数)。
// 创建 ExtractPropertiesOptions 对象以设置输入流
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;示例演示如何以最简方式从 PDF 文件中提取属性。
// 执行处理并获取属性
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));异常
如果未设置 options。
命名空间: Documentize 程序集: Documentize.dll