Lớp PdfExtractor

Thông tin

Đại diện cho chức năng cơ bản để trích xuất văn bản, hình ảnh và các loại nội dung khác có thể xuất hiện trên các trang của tài liệu PDF.

public abstract class PdfExtractor : IDisposable

Kế thừa

objectPdfExtractor

Được kế thừa

Triển khai

Các thành viên kế thừa

Ví dụ

Ví dụ minh họa cách trích xuất nội dung văn bản của tài liệu PDF.

// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
    // tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
    textExtractorOptions = new TextExtractorOptions();

    // thêm đường dẫn tệp đầu vào
    textExtractorOptions.AddInput(new FileDataSource(inputPath));

    // thực hiện quy trình trích xuất
    ResultContainer resultContainer = extractor.Process(textExtractorOptions);

    // lấy văn bản đã trích xuất từ đối tượng ResultContainer
    string textExtracted = resultContainer.ResultCollection[0].ToString();
}

Nhận xét

Đối tượng Documentize.TextExtractor được sử dụng để trích xuất văn bản, hoặc Documentize.ImageExtractor để trích xuất hình ảnh.

Các hàm khởi tạo

PdfExtractor()

protected PdfExtractor()

Phương thức

Dispose()

Triển khai của IDisposable. Trên thực tế, không cần thiết cho PdfExtractor.

public void Dispose()

Process(IPluginOptions)

Bắt đầu quy trình PdfExtractor với các tham số được chỉ định.

public ResultContainer Process(IPluginOptions pdfExtractorOptions)

Tham số

  • pdfExtractorOptions IPluginOptions: Một đối tượng tùy chọn chứa các hướng dẫn cho PdfExtractor.

Trả về

ResultContainer : Một đối tượng ResultContainer chứa kết quả của quá trình trích xuất.

Namespace: Documentize Assembly: Documentize.dll

 Tiếng Việt