Class PdfExtractor
Documentize.PdfExtractor プラグインを表します。PDF ドキュメントからテキスト、画像、フォーム データ、プロパティ(メタ データ)を抽出するために使用します。
public static class PdfExtractor継承
継承されたメンバー
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
メソッド
Extract(ExtractTextOptions)
PDF ドキュメントからテキストを抽出します。
public static string Extract(ExtractTextOptions options)パラメーター
optionsExtractTextOptions: 操作の指示を含むオプション オブジェクト。
戻り値
string : 抽出されたテキスト。
例
PDF ファイルからテキスト コンテンツを抽出する例です。
// 入力ファイル パスを設定する ExtractTextOptions オブジェクトを作成
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// 処理を実行し、抽出されたテキストを取得
var textExtracted = PdfExtractor.Extract(options);PDF ストリームからテキスト コンテンツを抽出する例です。
// 入力ストリームを設定する ExtractTextOptions オブジェクトを作成
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// 処理を実行し、抽出されたテキストを取得
var textExtracted = PdfExtractor.Extract(options);TextFormattingMode を使用して PDF ドキュメントのテキスト コンテンツを抽出する例です。
// 入力ファイル パスと TextFormattingMode を設定する ExtractTextOptions オブジェクトを作成
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// 処理を実行し、抽出されたテキストを取得
var textExtracted = PdfExtractor.Extract(options);最も簡潔な形で PDF ファイルからテキストを抽出する例です。
// 処理を実行し、抽出されたテキストを取得
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));例外
オプションが設定されていない場合。
Extract(ExtractImagesOptions)
PDF ドキュメントから画像を抽出します。
public static ResultContainer Extract(ExtractImagesOptions options)パラメーター
optionsExtractImagesOptions: 操作の指示を含むオプション オブジェクト。
戻り値
ResultContainer : 操作結果を含むオブジェクト。
例
PDF ドキュメントから画像を抽出する例です。
// 指示を設定する ExtractImagesOptions を作成
var options = new ExtractImagesOptions();
// 入力ファイル パスを追加
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// 出力ディレクトリ パスを設定
options.AddOutput(new DirectoryData("path_to_results_directory"));
// 処理を実行
var results = PdfExtractor.Extract(options);
// 画像結果へのパスを取得
var imageExtracted = results.ResultCollection[0].ToFile();フォルダーなしでストリームに画像を抽出する例です。
// 指示を設定する ExtractImagesOptions を作成
var options = new ExtractImagesOptions();
// 入力ファイル パスを追加
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// 出力を設定しない - 結果はストリームに書き込まれる
// 処理を実行
var results = PdfExtractor.Extract(options);
// ストリームを取得
var ms = results.ResultCollection[0].ToStream();
// デモ用にファイルへコピー
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}例外
オプションが設定されていない場合。
Extract(ExtractFormDataToDsvOptions)
PDF ドキュメントからフォーム データを抽出します。
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)パラメーター
optionsExtractFormDataToDsvOptions: 操作の指示を含むオプション オブジェクト。
戻り値
ResultContainer : 操作結果を含むオブジェクト。
例
フォームの値を CSV ファイルにエクスポートする例です。
// 指示を設定する ExtractFormDataToDsvOptions オブジェクトを作成
var options = new ExtractFormDataToDsvOptions(',', true);
// 入力ファイル パスを追加
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// 出力ファイル パスを設定
options.AddOutput(new FileData("path_to_result_csv_file.csv"));
// 処理を実行
PdfExtractor.Extract(options);フォームの値を TSV ファイルにエクスポートし、プロパティを設定する例です。
// 指示を設定する ExtractFormDataToDsvOptions オブジェクトを作成
var options = new ExtractFormDataToDsvOptions();
// デリミタを設定
options.Delimiter = '\t';
// 結果にフィールド名を追加
options.AddFieldName = true;
// 入力ファイル パスを追加
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// 出力ファイル パスを設定
options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
// 処理を実行
PdfExtractor.Extract(options);例外
オプションが設定されていない場合。
Extract(ExtractPropertiesOptions)
PDF ドキュメントからプロパティを抽出します。
public static PdfProperties Extract(ExtractPropertiesOptions options)パラメーター
optionsExtractPropertiesOptions: 操作の指示を含むオプション オブジェクト。
戻り値
PdfProperties : 操作結果を含むオブジェクト。
例
PDF ファイルからプロパティ(FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数)を抽出する例です。
// 入力ファイルを設定する ExtractPropertiesOptions オブジェクトを作成
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// 処理を実行し、プロパティを取得
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;PDF ストリームからプロパティ(Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、ページ数)を抽出する例です。
// 入力ストリームを設定する ExtractPropertiesOptions オブジェクトを作成
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// 処理を実行し、プロパティを取得
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;最も簡潔な形で PDF ファイルからプロパティを抽出する例です。
// 処理を実行し、プロパティを取得
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));例外
オプションが設定されていない場合。
Namespace: Documentize Assembly: Documentize.dll