Class TextExtractor

Thông tin

Đại diện cho plugin Documentize.TextExtractor. Được sử dụng để trích xuất văn bản từ tài liệu PDF.

public static class TextExtractor

Kế thừa

objectTextExtractor

Các thành viên kế thừa

Ví dụ

Ví dụ demonstra cách trích xuất nội dung văn bản của tài liệu PDF.

// Tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
var options = new TextExtractorOptions(TextFormattingMode.Pure);
// Thêm đường dẫn tệp đầu vào
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Thực hiện quá trình
var results = TextExtractor.Process(options);
// Lấy văn bản đã trích xuất từ đối tượng ResultContainer
var textExtracted = results.ResultCollection[0].ToString();

Phương thức

Process(TextExtractorOptions)

Trích xuất văn bản từ tài liệu PDF.

public static ResultContainer Process(TextExtractorOptions options)

Tham số

  • options TextExtractorOptions: Một đối tượng tùy chọn chứa hướng dẫn cho hoạt động.

Trả về

ResultContainer: Một đối tượng chứa kết quả của quá trình trích xuất.

Ngoại lệ

ArgumentException

Nếu tùy chọn không được thiết lập.

Namespace: Documentize Assembly: Documentize.dll

 Tiếng Việt