Class PdfExtractor

Info

Mewakili plugin Documentize.PdfExtractor. Digunakan untuk Mengekstrak Teks, Gambar, Data Formulir dari dokumen PDF.

public static class PdfExtractor

Inheritance

objectPdfExtractor

Inherited Members

Examples

Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF.

// Buat objek ExtractTextOptions untuk mengatur instruksi
var options = new ExtractTextOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = PdfExtractor.ExtractText(options);
// Ambil teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF dengan TextFormattingMode.

// Buat objek ExtractTextOptions untuk mengatur TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = PdfExtractor.ExtractText(options);
// Ambil teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Contoh ini menunjukkan bagaimana cara mengekstrak gambar dari dokumen PDF.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur jalur direktori output
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Lakukan proses
var results = PdfExtractor.ExtractImages(options);
// Ambil jalur ke gambar hasil
var imageExtracted = results.ResultCollection[0].ToFile();

Contoh ini menunjukkan bagaimana cara mengekstrak gambar dari dokumen PDF ke Streams tanpa folder.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Tidak mengatur output - hasil akan ditulis ke streams
// Lakukan proses
var results = PdfExtractor.ExtractImages(options);
// Ambil Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Contoh ini menunjukkan bagaimana cara mengekspor nilai Formulir ke file CSV.

// Buat objek ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur jalur file output
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Lakukan proses
PdfExtractor.ExtractFormData(options);

Methods

ExtractFormData(ExtractFormDataToDsvOptions)

Ekstrak Data Formulir dari dokumen PDF.

public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)

Parameters

Returns

ResultContainer : Objek yang berisi hasil dari operasi.

Exceptions

ArgumentException

Jika opsi tidak diatur.

ExtractImages(ExtractImagesOptions)

Ekstrak gambar dari dokumen PDF.

public static ResultContainer ExtractImages(ExtractImagesOptions options)

Parameters

Returns

ResultContainer : Objek yang berisi hasil dari operasi.

Exceptions

ArgumentException

Jika opsi tidak diatur.

ExtractText(ExtractTextOptions)

Ekstrak teks dari dokumen PDF.

public static ResultContainer ExtractText(ExtractTextOptions options)

Parameters

Returns

ResultContainer : Objek yang berisi hasil ekstraksi.

Exceptions

ArgumentException

Jika opsi tidak diatur.

Namespace: Documentize Assembly: Documentize.dll

 Indonesia