クラス PdfExtractor

情報

PDF 文書のページに存在する可能性のあるテキスト、画像、その他のタイプのコンテンツを抽出するための基本機能を表します。

public abstract class PdfExtractor : IDisposable

継承

objectPdfExtractor

派生

実装

継承されたメンバー

この例では、PDF 文書のテキストコンテンツを抽出する方法を示します。

// PDF コンテンツを抽出するために TextExtractor オブジェクトを作成
using (TextExtractor extractor = new TextExtractor())
{
    // 指示を設定するために TextExtractorOptions オブジェクトを作成
    textExtractorOptions = new TextExtractorOptions();

    // 入力ファイルパスを追加
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // 抽出プロセスを実行
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // ResultContainer オブジェクトから抽出したテキストを取得
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

備考

Documentize.TextExtractor オブジェクトはテキストを抽出するために使用され、Documentize.ImageExtractor は画像を抽出するために使用されます。

コンストラクター

PdfExtractor()

protected PdfExtractor()

メソッド

Dispose()

IDisposable の実装。実際には、PdfExtractor のために必要ではありません。

public void Dispose()

Process(IPluginOptions)

指定されたパラメータで PdfExtractor の処理を開始します。

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

パラメーター

  • pdfExtractorOptions IPluginOptions: PdfExtractor のための指示を含むオプションオブジェクト。

戻り値

ResultContainer : 抽出の結果を含む ResultContainer オブジェクト。

名前空間: Documentize アセンブリ: Documentize.dll

 日本語