Class PdfExtractor

情報

Documentize.PdfExtractor プラグインを表します。PDF ドキュメントからテキスト、画像、フォーム データを抽出するために使用されます。

public static class PdfExtractor

Inheritance

objectPdfExtractor

Inherited Members

Methods

Extract(ExtractTextOptions)

PDF ドキュメントからテキストを抽出します。

public static ResultContainer Extract(ExtractTextOptions options)

Parameters

Returns

ResultContainer : 抽出結果を保持するオブジェクト。

Examples

この例は PDF ドキュメントのテキスト コンテンツを抽出する方法を示しています。

// Create ExtractTextOptions object to set instructions
var options = new ExtractTextOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();

この例は TextFormattingMode を使用して PDF ドキュメントのテキスト コンテンツを抽出する方法を示しています。

// Create ExtractTextOptions object to set TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();

Exceptions

ArgumentException

オプションが設定されていない場合。

Extract(ExtractImagesOptions)

PDF ドキュメントから画像を抽出します。

public static ResultContainer Extract(ExtractImagesOptions options)

Parameters

Returns

ResultContainer : 抽出結果を保持するオブジェクト。

Examples

この例は PDF ドキュメントから画像を抽出する方法を示しています。

// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output Directory path
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get path to image result
var imageExtracted = results.ResultCollection[0].ToFile();

この例はフォルダーを使用せずにストリームへ画像を抽出する方法を示しています。

// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Not set output - it will write results to streams
// Perform the process
var results = PdfExtractor.Extract(options);
// Get Stream
var ms = results.ResultCollection[0].ToStream();
// Copy data to file for demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Exceptions

ArgumentException

オプションが設定されていない場合。

Extract(ExtractFormDataToDsvOptions)

PDF ドキュメントからフォーム データを抽出します。

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

Parameters

Returns

ResultContainer : 抽出結果を保持するオブジェクト。

Examples

この例はフォームの値を CSV ファイルにエクスポートする方法を示しています。

// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Perform the process
PdfExtractor.Extract(options);

Exceptions

ArgumentException

オプションが設定されていない場合。

Namespace: Documentize Assembly: Documentize.dll

 日本語