クラス PdfExtractor
情報
PDF 文書のページに存在する可能性のあるテキスト、画像、その他のタイプのコンテンツを抽出するための基本機能を表します。
public abstract class PdfExtractor : IDisposable
継承
派生
実装
継承されたメンバー
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
例
この例では、PDF 文書のテキストコンテンツを抽出する方法を示します。
// PDF コンテンツを抽出するために TextExtractor オブジェクトを作成
using (TextExtractor extractor = new TextExtractor())
{
// 指示を設定するために TextExtractorOptions オブジェクトを作成
textExtractorOptions = new TextExtractorOptions();
// 入力ファイルパスを追加
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// 抽出プロセスを実行
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// ResultContainer オブジェクトから抽出したテキストを取得
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
備考
Documentize.TextExtractor オブジェクトはテキストを抽出するために使用され、Documentize.ImageExtractor は画像を抽出するために使用されます。
コンストラクター
PdfExtractor()
protected PdfExtractor()
メソッド
Dispose()
IDisposable の実装。実際には、PdfExtractor のために必要ではありません。
public void Dispose()
Process(IPluginOptions)
指定されたパラメータで PdfExtractor の処理を開始します。
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
パラメーター
pdfExtractorOptions
IPluginOptions: PdfExtractor のための指示を含むオプションオブジェクト。
戻り値
ResultContainer : 抽出の結果を含む ResultContainer オブジェクト。
名前空間: Documentize アセンブリ: Documentize.dll