Lớp TextExtractor

Thông tin

Đại diện cho plugin Documentize.TextExtractor. Được sử dụng để trích xuất văn bản từ tài liệu PDF.

public class TextExtractor : PdfExtractor, IDisposable

Kế thừa

objectPdfExtractorTextExtractor

Triển khai

Các thành viên kế thừa

Ví dụ

Ví dụ dưới đây minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// tạo đối tượng TextExtractor để trích xuất văn bản trong nội dung PDF
using (var plugin = new TextExtractor())
{
    // tạo TextExtractorOptions
    var opt = new TextExtractorOptions();

    // thêm đường dẫn tệp đầu vào
    opt.AddInput(new FileDataSource(inputPath));

    // thực hiện quá trình trích xuất
    var resultContainer = plugin.Process(opt);

    // lấy văn bản đã được trích xuất từ đối tượng ResultContainer
    var textExtracted = resultContainer.ResultCollection[0].ToString();
}

Các hàm khởi tạo

TextExtractor()

public TextExtractor()

Namespace: Documentize Assembly: Documentize.dll

 Tiếng Việt