Class PdfExtractor
Mewakili komponen Documentize.PdfExtractor. Digunakan untuk mengekstrak Teks, Gambar, Data Form, Properti (Meta Data) dari dokumen PDF.
public static class PdfExtractorInheritance
Inherited Members
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Methods
Extract(ExtractTextOptions)
Mengekstrak Teks dari dokumen PDF.
public static string Extract(ExtractTextOptions options)Parameters
optionsExtractTextOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
string : Teks yang diekstrak.
Examples
Contoh berikut menunjukkan cara mengekstrak konten Teks dari file PDF.
// Buat objek ExtractTextOptions untuk mengatur path file input
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);Contoh berikut menunjukkan cara mengekstrak konten Teks dari stream PDF.
// Buat objek ExtractTextOptions untuk mengatur input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);Contoh berikut menunjukkan cara mengekstrak konten Teks dokumen PDF dengan TextFormattingMode.
// Buat objek ExtractTextOptions untuk mengatur path file input dan TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);Contoh berikut menunjukkan cara mengekstrak Teks dari file PDF dengan gaya paling singkat.
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Exceptions
ArgumentException
Jika opsi tidak disetel.
Extract(ExtractImagesOptions)
Mengekstrak gambar dari dokumen PDF.
public static ResultContainer Extract(ExtractImagesOptions options)Parameters
optionsExtractImagesOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
ResultContainer : Objek yang berisi hasil operasi.
Examples
Contoh berikut menunjukkan cara mengekstrak Gambar dari dokumen PDF.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path Direktori output
options.AddOutput(new DirectoryData("path_to_results_directory"));
// Lakukan proses
var results = PdfExtractor.Extract(options);
// Dapatkan path ke hasil gambar
var imageExtracted = results.ResultCollection[0].ToFile();Contoh berikut menunjukkan cara mengekstrak Gambar dari dokumen PDF ke Stream tanpa folder.
// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Tidak mengatur output – hasil akan ditulis ke stream
// Lakukan proses
var results = PdfExtractor.Extract(options);
// Dapatkan Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}Exceptions
ArgumentException
Jika opsi tidak disetel.
Extract(ExtractFormDataToDsvOptions)
Mengekstrak Data Form dari dokumen PDF.
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)Parameters
optionsExtractFormDataToDsvOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
ResultContainer : Objek yang berisi hasil operasi.
Examples
Contoh berikut menunjukkan cara mengekspor nilai Form ke file CSV.
// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileData("path_to_result_csv_file.csv"));
// Lakukan proses
PdfExtractor.Extract(options);Contoh berikut menunjukkan cara mengekspor nilai Form ke file TSV dan mengatur Properti.
// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions();
//Set Delimiter
options.Delimiter = '\t';
//Add Field Names to result
options.AddFieldName = true;
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
// Lakukan proses
PdfExtractor.Extract(options);Exceptions
ArgumentException
Jika opsi tidak disetel.
Extract(ExtractPropertiesOptions)
Mengekstrak Properti dari dokumen PDF.
public static PdfProperties Extract(ExtractPropertiesOptions options)Parameters
optionsExtractPropertiesOptions: Objek opsi yang berisi instruksi untuk operasi.
Returns
PdfProperties : Objek yang berisi hasil operasi.
Examples
Contoh berikut menunjukkan cara mengekstrak Properti (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) dari file PDF.
// Buat ExtractPropertiesOptions untuk mengatur file input
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Contoh berikut menunjukkan cara mengekstrak Properti (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) dari stream PDF.
// Buat ExtractPropertiesOptions untuk mengatur input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;Contoh berikut menunjukkan cara mengekstrak Properti dari file PDF dengan gaya paling singkat.
// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));Exceptions
ArgumentException
Jika opsi tidak disetel.
Namespace: Documentize
Assembly: Documentize.dll