Class TextExtractor
Thông tin
Đại diện cho plugin Documentize.TextExtractor. Được sử dụng để trích xuất văn bản từ tài liệu PDF.
public static class TextExtractor
Kế thừa
Các thành viên kế thừa
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ví dụ
Ví dụ demonstra cách trích xuất nội dung văn bản của tài liệu PDF.
// Tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Thêm đường dẫn tệp đầu vào
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Thực hiện quá trình
var results = TextExtractor.Process(options);
// Lấy văn bản đã trích xuất từ đối tượng ResultContainer
var textExtracted = results.ResultCollection[0].ToString();
Phương thức
Process(TextExtractorOptions)
Trích xuất văn bản từ tài liệu PDF.
public static ResultContainer Process(TextExtractorOptions options)
Tham số
options
TextExtractorOptions: Một đối tượng tùy chọn chứa hướng dẫn cho hoạt động.
Trả về
ResultContainer: Một đối tượng chứa kết quả của quá trình trích xuất.
Ngoại lệ
Nếu tùy chọn không được thiết lập.
Namespace: Documentize Assembly: Documentize.dll