クラス TextExtractorOptions
情報
Documentize.TextExtractor プラグインのテキスト抽出オプションを表します。
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
継承
object ← PdfExtractorOptions ← TextExtractorOptions
実装
継承されたメンバー
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
例
この例では、PDF ドキュメントのテキストコンテンツを抽出する方法を示します。
// PDF コンテンツを抽出するために TextExtractor オブジェクトを作成
using (TextExtractor extractor = new TextExtractor())
{
// テキストフォーマットモード (Pure または Raw - デフォルト) を設定するために TextExtractorOptions オブジェクトを作成
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// データソースに入力ファイルパスを追加
extractorOptions.AddInput(new FileDataSource(inputPath));
// 抽出処理を実行
ResultContainer resultContainer = extractor.Process(extractorOptions);
// ResultContainer オブジェクトから抽出されたテキストを取得
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
備考
Documentize.TextExtractorOptions オブジェクトは、Documentize.TextExtractorOptions.TextFormattingMode およびテキスト抽出操作の他のオプションを設定するために使用されます。 また、入力 PDF ドキュメントを表すデータ (ファイル、ストリーム) を追加する機能を継承しています。
コンストラクタ
TextExtractorOptions(TextFormattingMode)
指定されたテキストフォーマットモードのために Documentize.TextExtractorOptions オブジェクトの新しいインスタンスを初期化します。
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
パラメーター
formattingMode
TextExtractorOptions.TextFormattingMode: テキストフォーマットモードの値。
TextExtractorOptions()
‘Raw’ (デフォルト) テキストフォーマットモードで Documentize.TextExtractorOptions オブジェクトの新しいインスタンスを初期化します。
public TextExtractorOptions()
プロパティ
FormattingMode
フォーマットモードを取得します。
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
プロパティ値
TextExtractorOptions.TextFormattingMode
OperationName
操作の名前を返します。
public override string OperationName { get; }
プロパティ値
名前空間: Documentize アセンブリ: Documentize.dll