Class TextExtractor

情報

Documentize.TextExtractorプラグインを表します。PDFドキュメントからテキストを抽出するために使用されます。

public static class TextExtractor

継承

objectTextExtractor

継承されたメンバー

この例は、PDFドキュメントのテキストコンテンツを抽出する方法を示しています。

// TextExtractorOptionsオブジェクトを作成して指示を設定
var options = new TextExtractorOptions();
// 入力ファイルパスを追加
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// プロセスを実行
var results = TextExtractor.Process(options);
// ResultContainerオブジェクトから抽出されたテキストを取得
var textExtracted = results.ResultCollection[0].ToString();

この例は、TextFormattingModeを使用してPDFドキュメントのテキストコンテンツを抽出する方法を示しています。

// TextExtractorOptionsオブジェクトを作成してTextFormattingModeを設定
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 入力ファイルパスを追加
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// プロセスを実行
var results = TextExtractor.Process(options);
// ResultContainerオブジェクトから抽出されたテキストを取得
var textExtracted = results.ResultCollection[0].ToString();

メソッド

Process(TextExtractorOptions)

PDFドキュメントからテキストを抽出します。

public static ResultContainer Process(TextExtractorOptions options)

パラメータ

戻り値

ResultContainer : 抽出の結果を含むオブジェクトです。

例外

ArgumentException

オプションが設定されていない場合。

Namespace: Documentize Assembly: Documentize.dll

 日本語