Class TextExtractor
情報
Documentize.TextExtractorプラグインを表します。PDFドキュメントからテキストを抽出するために使用されます。
public static class TextExtractor
継承
継承されたメンバー
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
例
この例は、PDFドキュメントのテキストコンテンツを抽出する方法を示しています。
// TextExtractorOptionsオブジェクトを作成して指示を設定
var options = new TextExtractorOptions();
// 入力ファイルパスを追加
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// プロセスを実行
var results = TextExtractor.Process(options);
// ResultContainerオブジェクトから抽出されたテキストを取得
var textExtracted = results.ResultCollection[0].ToString();
この例は、TextFormattingModeを使用してPDFドキュメントのテキストコンテンツを抽出する方法を示しています。
// TextExtractorOptionsオブジェクトを作成してTextFormattingModeを設定
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// 入力ファイルパスを追加
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// プロセスを実行
var results = TextExtractor.Process(options);
// ResultContainerオブジェクトから抽出されたテキストを取得
var textExtracted = results.ResultCollection[0].ToString();
メソッド
Process(TextExtractorOptions)
PDFドキュメントからテキストを抽出します。
public static ResultContainer Process(TextExtractorOptions options)
パラメータ
options
TextExtractorOptions: 操作の指示を含むオプションオブジェクトです。
戻り値
ResultContainer : 抽出の結果を含むオブジェクトです。
例外
オプションが設定されていない場合。
Namespace: Documentize Assembly: Documentize.dll