Class PdfExtractor
情報
Documentize.PdfExtractor プラグインを表します。PDF ドキュメントからテキスト、画像、フォーム データを抽出するために使用されます。
public static class PdfExtractorInheritance
Inherited Members
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Methods
Extract(ExtractTextOptions)
PDF ドキュメントからテキストを抽出します。
public static ResultContainer Extract(ExtractTextOptions options)Parameters
optionsExtractTextOptions: 操作の指示を含むオプション オブジェクト。
Returns
ResultContainer : 抽出結果を保持するオブジェクト。
Examples
この例は PDF ドキュメントのテキスト コンテンツを抽出する方法を示しています。
// Create ExtractTextOptions object to set instructions
var options = new ExtractTextOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();この例は TextFormattingMode を使用して PDF ドキュメントのテキスト コンテンツを抽出する方法を示しています。
// Create ExtractTextOptions object to set TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();Exceptions
オプションが設定されていない場合。
Extract(ExtractImagesOptions)
PDF ドキュメントから画像を抽出します。
public static ResultContainer Extract(ExtractImagesOptions options)Parameters
optionsExtractImagesOptions: 操作の指示を含むオプション オブジェクト。
Returns
ResultContainer : 抽出結果を保持するオブジェクト。
Examples
この例は PDF ドキュメントから画像を抽出する方法を示しています。
// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output Directory path
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get path to image result
var imageExtracted = results.ResultCollection[0].ToFile();この例はフォルダーを使用せずにストリームへ画像を抽出する方法を示しています。
// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Not set output - it will write results to streams
// Perform the process
var results = PdfExtractor.Extract(options);
// Get Stream
var ms = results.ResultCollection[0].ToStream();
// Copy data to file for demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}Exceptions
オプションが設定されていない場合。
Extract(ExtractFormDataToDsvOptions)
PDF ドキュメントからフォーム データを抽出します。
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)Parameters
optionsExtractFormDataToDsvOptions: 操作の指示を含むオプション オブジェクト。
Returns
ResultContainer : 抽出結果を保持するオブジェクト。
Examples
この例はフォームの値を CSV ファイルにエクスポートする方法を示しています。
// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Perform the process
PdfExtractor.Extract(options);Exceptions
オプションが設定されていない場合。
Namespace: Documentize Assembly: Documentize.dll