Class PdfExtractor
Mewakili plugin Documentize.PdfExtractor. Digunakan untuk Mengekstrak Teks, Gambar, Data Formulir dari dokumen PDF.
public static class PdfExtractor
Inheritance
Inherited Members
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Examples
Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF.
// Buat objek ExtractTextOptions untuk mengatur instruksi
var options = new ExtractTextOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = PdfExtractor.ExtractText(options);
// Ambil teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF dengan TextFormattingMode.
// Buat objek ExtractTextOptions untuk mengatur TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = PdfExtractor.ExtractText(options);
// Ambil teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Contoh ini menunjukkan bagaimana cara mengekstrak gambar dari dokumen PDF.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur jalur direktori output
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Lakukan proses
var results = PdfExtractor.ExtractImages(options);
// Ambil jalur ke gambar hasil
var imageExtracted = results.ResultCollection[0].ToFile();
Contoh ini menunjukkan bagaimana cara mengekstrak gambar dari dokumen PDF ke Streams tanpa folder.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Tidak mengatur output - hasil akan ditulis ke streams
// Lakukan proses
var results = PdfExtractor.ExtractImages(options);
// Ambil Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}
Contoh ini menunjukkan bagaimana cara mengekspor nilai Formulir ke file CSV.
// Buat objek ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Atur jalur file output
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Lakukan proses
PdfExtractor.ExtractFormData(options);
Methods
ExtractFormData(ExtractFormDataToDsvOptions)
Ekstrak Data Formulir dari dokumen PDF.
public static ResultContainer ExtractFormData(ExtractFormDataToDsvOptions options)
Parameters
options
ExtractFormDataToDsvOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
ResultContainer : Objek yang berisi hasil dari operasi.
Exceptions
Jika opsi tidak diatur.
ExtractImages(ExtractImagesOptions)
Ekstrak gambar dari dokumen PDF.
public static ResultContainer ExtractImages(ExtractImagesOptions options)
Parameters
options
ExtractImagesOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
ResultContainer : Objek yang berisi hasil dari operasi.
Exceptions
Jika opsi tidak diatur.
ExtractText(ExtractTextOptions)
Ekstrak teks dari dokumen PDF.
public static ResultContainer ExtractText(ExtractTextOptions options)
Parameters
options
ExtractTextOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
ResultContainer : Objek yang berisi hasil ekstraksi.
Exceptions
Jika opsi tidak diatur.
Namespace: Documentize Assembly: Documentize.dll