Class TextExtractor
Info
Mewakili plugin Documentize.TextExtractor. Digunakan untuk mengekstrak teks dari dokumen PDF.
public static class TextExtractor
Pewarisan
Anggota yang Diperoleh
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Contoh
Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF.
// Buat objek TextExtractorOptions untuk mengatur instruksi
var options = new TextExtractorOptions();
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = TextExtractor.Process(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Contoh ini menunjukkan bagaimana cara mengekstrak konten teks dari dokumen PDF dengan TextFormattingMode.
// Buat objek TextExtractorOptions untuk mengatur TextFormattingMode
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Tambahkan jalur file input
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Lakukan proses
var results = TextExtractor.Process(options);
// Dapatkan teks yang diekstrak dari objek ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Metode
Process(TextExtractorOptions)
Ekstrak teks dari dokumen PDF.
public static ResultContainer Process(TextExtractorOptions options)
Parameter
options
TextExtractorOptions: Objek opsi yang berisi instruksi untuk operasi.
Mengembalikan
ResultContainer : Objek yang berisi hasil ekstraksi.
Pengecualian
Jika opsi tidak disetel.
Namespace: Documentize Assembly: Documentize.dll