Lớp TextExtractorOptions

Thông tin

Đại diện cho các tùy chọn trích xuất văn bản cho plugin Documentize.TextExtractor.

public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions

Kế thừa

objectPdfExtractorOptionsTextExtractorOptions

Thực thi

Thành viên kế thừa

Ví dụ

Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
    // tạo đối tượng TextExtractorOptions để thiết lập TextFormattingMode (Pure, hoặc Raw - mặc định)
    extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);

    // thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
    extractorOptions.AddInput(new FileDataSource(inputPath));

    // thực hiện quá trình trích xuất
    ResultContainer resultContainer = extractor.Process(extractorOptions);

    // lấy văn bản đã trích xuất từ đối tượng ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Nhận xét

Đối tượng Documentize.TextExtractorOptions được sử dụng để thiết lập Documentize.TextExtractorOptions.TextFormattingMode và các tùy chọn khác cho hoạt động trích xuất văn bản. Ngoài ra, nó kế thừa các chức năng để thêm dữ liệu (tệp, luồng) đại diện cho các tài liệu PDF đầu vào.

Các hàm khởi tạo

TextExtractorOptions(TextFormattingMode)

Khởi tạo một phiên bản mới của đối tượng Documentize.TextExtractorOptions cho chế độ định dạng văn bản đã chỉ định.

public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)

Tham số

TextExtractorOptions()

Khởi tạo một phiên bản mới của đối tượng Documentize.TextExtractorOptions với chế độ định dạng văn bản ‘Raw’ (mặc định).

public TextExtractorOptions()

Các thuộc tính

FormattingMode

Lấy chế độ định dạng.

public TextExtractorOptions.TextFormattingMode FormattingMode { get; }

Giá trị thuộc tính

TextExtractorOptions.TextFormattingMode

OperationName

Trả về tên của hoạt động.

public override string OperationName { get; }

Giá trị thuộc tính

string

Namespace: Documentize Assembly: Documentize.dll

 Tiếng Việt