Lớp TextExtractor
Thông tin
Đại diện cho plugin Documentize.TextExtractor. Được sử dụng để trích xuất văn bản từ tài liệu PDF.
public class TextExtractor : PdfExtractor, IDisposable
Kế thừa
object ← PdfExtractor ← TextExtractor
Triển khai
Các thành viên kế thừa
- PdfExtractor.Process(IPluginOptions),
- PdfExtractor.Dispose(),
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ví dụ
Ví dụ dưới đây minh họa cách trích xuất nội dung văn bản của tài liệu PDF.
// tạo đối tượng TextExtractor để trích xuất văn bản trong nội dung PDF
using (var plugin = new TextExtractor())
{
// tạo TextExtractorOptions
var opt = new TextExtractorOptions();
// thêm đường dẫn tệp đầu vào
opt.AddInput(new FileDataSource(inputPath));
// thực hiện quá trình trích xuất
var resultContainer = plugin.Process(opt);
// lấy văn bản đã được trích xuất từ đối tượng ResultContainer
var textExtracted = resultContainer.ResultCollection[0].ToString();
}
Các hàm khởi tạo
TextExtractor()
public TextExtractor()
Namespace: Documentize Assembly: Documentize.dll