Class PdfExtractor

Info

Mewakili komponen Documentize.PdfExtractor. Digunakan untuk mengekstrak Teks, Gambar, Data Form, Properti (Meta Data) dari dokumen PDF.

public static class PdfExtractor

Inheritance

object
PdfExtractor

Inherited Members

Methods

Extract(ExtractTextOptions)

Mengekstrak Teks dari dokumen PDF.

public static string Extract(ExtractTextOptions options)

Parameters

Returns

string : Teks yang diekstrak.

Examples

Contoh berikut menunjukkan cara mengekstrak konten Teks dari file PDF.

// Buat objek ExtractTextOptions untuk mengatur path file input
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);

Contoh berikut menunjukkan cara mengekstrak konten Teks dari stream PDF.

// Buat objek ExtractTextOptions untuk mengatur input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractTextOptions(stream);
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);

Contoh berikut menunjukkan cara mengekstrak konten Teks dokumen PDF dengan TextFormattingMode.

// Buat objek ExtractTextOptions untuk mengatur path file input dan TextFormattingMode
var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(options);

Contoh berikut menunjukkan cara mengekstrak Teks dari file PDF dengan gaya paling singkat.

// Lakukan proses dan dapatkan teks yang diekstrak
var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Exceptions

ArgumentException
Jika opsi tidak disetel.

Extract(ExtractImagesOptions)

Mengekstrak gambar dari dokumen PDF.

public static ResultContainer Extract(ExtractImagesOptions options)

Parameters

Returns

ResultContainer : Objek yang berisi hasil operasi.

Examples

Contoh berikut menunjukkan cara mengekstrak Gambar dari dokumen PDF.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path Direktori output
options.AddOutput(new DirectoryData("path_to_results_directory"));
// Lakukan proses
var results = PdfExtractor.Extract(options);
// Dapatkan path ke hasil gambar
var imageExtracted = results.ResultCollection[0].ToFile();

Contoh berikut menunjukkan cara mengekstrak Gambar dari dokumen PDF ke Stream tanpa folder.

// Buat ExtractImagesOptions untuk mengatur instruksi
var options = new ExtractImagesOptions();
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Tidak mengatur output – hasil akan ditulis ke stream
// Lakukan proses
var results = PdfExtractor.Extract(options);
// Dapatkan Stream
var ms = results.ResultCollection[0].ToStream();
// Salin data ke file untuk demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
    ms.CopyTo(fs);
}

Exceptions

ArgumentException
Jika opsi tidak disetel.

Extract(ExtractFormDataToDsvOptions)

Mengekstrak Data Form dari dokumen PDF.

public static ResultContainer Extract(ExtractFormDataToDsvOptions options)

Parameters

Returns

ResultContainer : Objek yang berisi hasil operasi.

Examples

Contoh berikut menunjukkan cara mengekspor nilai Form ke file CSV.

// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions(',', true);
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileData("path_to_result_csv_file.csv"));
// Lakukan proses
PdfExtractor.Extract(options);

Contoh berikut menunjukkan cara mengekspor nilai Form ke file TSV dan mengatur Properti.

// Buat ExtractFormDataToDsvOptions untuk mengatur instruksi
var options = new ExtractFormDataToDsvOptions();
//Set Delimiter
options.Delimiter = '\t';
//Add Field Names to result
options.AddFieldName = true;
// Tambahkan path file input
options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
// Atur path file output
options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
// Lakukan proses
PdfExtractor.Extract(options);

Exceptions

ArgumentException
Jika opsi tidak disetel.

Extract(ExtractPropertiesOptions)

Mengekstrak Properti dari dokumen PDF.

public static PdfProperties Extract(ExtractPropertiesOptions options)

Parameters

Returns

PdfProperties : Objek yang berisi hasil operasi.

Examples

Contoh berikut menunjukkan cara mengekstrak Properti (FileName, Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) dari file PDF.

// Buat ExtractPropertiesOptions untuk mengatur file input
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(options);
var filename = pdfProperties.FileName;
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Contoh berikut menunjukkan cara mengekstrak Properti (Title, Author, Subject, Keywords, Created, Modified, Application, PDF Producer, Number of Pages) dari stream PDF.

// Buat ExtractPropertiesOptions untuk mengatur input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var created = pdfProperties.Created;
var modified = pdfProperties.Modified;
var application = pdfProperties.Application;
var pdfProducer = pdfProperties.PdfProducer;
var numberOfPages = pdfProperties.NumberOfPages;

Contoh berikut menunjukkan cara mengekstrak Properti dari file PDF dengan gaya paling singkat.

// Lakukan proses dan dapatkan Properti
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

Exceptions

ArgumentException
Jika opsi tidak disetel.

Namespace: Documentize
Assembly: Documentize.dll

 Indonesia