クラス TextExtractorOptions

情報

Documentize.TextExtractor プラグインのテキスト抽出オプションを表します。

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

継承

objectPdfExtractorOptionsTextExtractorOptions

実装

継承されたメンバー

この例では、PDF ドキュメントのテキストコンテンツを抽出する方法を示します。

// PDF コンテンツを抽出するために TextExtractor オブジェクトを作成
using (TextExtractor extractor = new TextExtractor())
{
    // テキストフォーマットモード (Pure または Raw - デフォルト) を設定するために TextExtractorOptions オブジェクトを作成
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // データソースに入力ファイルパスを追加
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // 抽出処理を実行
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // ResultContainer オブジェクトから抽出されたテキストを取得
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

備考

Documentize.TextExtractorOptions オブジェクトは、Documentize.TextExtractorOptions.TextFormattingMode およびテキスト抽出操作の他のオプションを設定するために使用されます。 また、入力 PDF ドキュメントを表すデータ (ファイル、ストリーム) を追加する機能を継承しています。

コンストラクタ

TextExtractorOptions(TextFormattingMode)

指定されたテキストフォーマットモードのために Documentize.TextExtractorOptions オブジェクトの新しいインスタンスを初期化します。

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

パラメーター

TextExtractorOptions()

‘Raw’ (デフォルト) テキストフォーマットモードで Documentize.TextExtractorOptions オブジェクトの新しいインスタンスを初期化します。

public TextExtractorOptions()

プロパティ

FormattingMode

フォーマットモードを取得します。

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

プロパティ値

TextExtractorOptions.TextFormattingMode

OperationName

操作の名前を返します。

public override string OperationName { get; }

プロパティ値

string

名前空間: Documentize アセンブリ: Documentize.dll

 日本語