Kelas PdfExtractor
Info
Mewakili fungsi dasar untuk mengekstrak teks, gambar, dan jenis konten lain yang mungkin terjadi pada halaman dokumen PDF.
public abstract class PdfExtractor : IDisposable
Pewarisan
Turunan
Menerapkan
Anggota yang diwarisi
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Contoh
Contoh ini menunjukkan cara mengekstrak konten teks dari dokumen PDF.
// buat objek TextExtractor untuk mengekstrak konten PDF
using (TextExtractor extractor = new TextExtractor())
{
// buat objek TextExtractorOptions untuk mengatur instruksi
textExtractorOptions = new TextExtractorOptions();
// tambahkan jalur file input
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// lakukan proses ekstraksi
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// ambil teks yang diekstrak dari objek ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Catatan
Objek Documentize.TextExtractor digunakan untuk mengekstrak teks, atau Documentize.ImageExtractor untuk mengekstrak gambar.
Konstruktor
PdfExtractor()
protected PdfExtractor()
Metode
Dispose()
Implementasi dari IDisposable. Sebenarnya, itu tidak diperlukan untuk PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Memulai pemrosesan PdfExtractor dengan parameter yang ditentukan.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Parameter
pdfExtractorOptions
IPluginOptions: Sebuah objek opsi yang berisi instruksi untuk PdfExtractor.
Mengembalikan
ResultContainer : Sebuah objek ResultContainer yang berisi hasil dari ekstraksi.
Namespace: Documentize
Assembly: Documentize.dll