Class PdfExtractor
Mewakili plugin Documentize.PdfExtractor. Digunakan untuk mengekstrak Teks, Gambar, Data Formulir dari dokumen PDF.
public static class PdfExtractorInheritance
Inherited Members
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Methods
Extract(ExtractTextOptions)
Mengekstrak teks dari dokumen PDF.
public static ResultContainer Extract(ExtractTextOptions options)Parameters
optionsExtractTextOptions: Sebuah objek opsi yang berisi instruksi untuk operasi tersebut.
Returns
ResultContainer : Sebuah objek yang berisi hasil ekstraksi.
Examples
Contoh berikut menunjukkan cara mengekstrak konten teks dari dokumen PDF.
// Buat objek ExtractTextOptions untuk mengatur instruksi
var options = new ExtractTextOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();Contoh berikut menunjukkan cara mengekstrak konten teks dari dokumen PDF dengan TextFormattingMode.
// Buat objek ExtractTextOptions untuk mengatur TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();Exceptions
Jika opsi tidak disetel.
Extract(ExtractImagesOptions)
Mengekstrak gambar dari dokumen PDF.
public static ResultContainer Extract(ExtractImagesOptions options)Parameters
optionsExtractImagesOptions: Sebuah objek opsi yang berisi instruksi untuk operasi tersebut.
Returns
ResultContainer : Sebuah objek yang berisi hasil operasi.
Examples
Contoh berikut menunjukkan cara mengekstrak gambar dari dokumen PDF.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur path direktori output
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan path ke gambar hasil ekstraksi
var imageExtracted = results.ResultCollection[0].ToFile();Contoh berikut menunjukkan cara mengekstrak gambar dari dokumen PDF ke Stream tanpa folder.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Tidak mengatur output - hasil akan ditulis ke stream
// Jalankan proses
var results = PdfExtractor.Extract(options);
// Dapatkan Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}Exceptions
Jika opsi tidak disetel.
Extract(ExtractFormDataToDsvOptions)
Mengekstrak Data Formulir dari dokumen PDF.
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)Parameters
optionsExtractFormDataToDsvOptions: Sebuah objek opsi yang berisi instruksi untuk operasi tersebut.
Returns
ResultContainer : Sebuah objek yang berisi hasil operasi.
Examples
Contoh berikut menunjukkan cara mengekspor nilai Form ke file CSV.
// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan path file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Jalankan proses
PdfExtractor.Extract(options);Exceptions
Jika opsi tidak disetel.
Namespace: Documentize Assembly: Documentize.dll