Class PdfExtractor

Info

Mewakili plugin Documentize.PdfExtractor. Digunakan untuk mengekstrak Teks, Gambar, Data Formulir dari dokumen PDF.

public static class PdfExtractor

Inheritance

objectPdfExtractor

Inherited Members

Methods

Extract(ExtractTextOptions)

Mengekstrak teks dari dokumen PDF.

public static ResultContainer Extract(ExtractTextOptions options)

Parameters

  • options ExtractTextOptions: Sebuah objek opsi yang berisi instruksi untuk operasi tersebut.

Returns

ResultContainer : Sebuah objek yang berisi hasil ekstraksi.

Examples

Contoh berikut menunjukkan cara mengekstrak konten teks dari dokumen PDF.

// Buat objek ExtractTextOptions untuk mengatur instruksi
var options = new ExtractTextOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Contoh berikut menunjukkan cara mengekstrak konten teks dari dokumen PDF dengan TextFormattingMode.

// Buat objek ExtractTextOptions untuk mengatur TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Exceptions

ArgumentException

Jika opsi tidak disetel.

Extract(ExtractImagesOptions)

Mengekstrak gambar dari dokumen PDF.

public static ResultContainer Extract(ExtractImagesOptions options)

Parameters

Returns

ResultContainer : Sebuah objek yang berisi hasil operasi.

Examples

Contoh berikut menunjukkan cara mengekstrak gambar dari dokumen PDF.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur path direktori output
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan path ke gambar hasil ekstraksi
var imageExtracted = results.ResultCollection[0].ToFile();

Contoh berikut menunjukkan cara mengekstrak gambar dari dokumen PDF ke Stream tanpa folder.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Tidak mengatur output - hasil akan ditulis ke stream
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Exceptions

ArgumentException

Jika opsi tidak disetel.

Extract(ExtractFormDataToDsvOptions)

Mengekstrak Data Formulir dari dokumen PDF.

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

Parameters

Returns

ResultContainer : Sebuah objek yang berisi hasil operasi.

Examples

Contoh berikut menunjukkan cara mengekspor nilai Form ke file CSV.

// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Jalankan proses
PdfExtractor.Extract(options);

Exceptions

ArgumentException

Jika opsi tidak disetel.

Namespace: Documentize Assembly: Documentize.dll

 Indonesia