Lớp PdfExtractor
Thông tin
Đại diện cho chức năng cơ bản để trích xuất văn bản, hình ảnh và các loại nội dung khác có thể xuất hiện trên các trang của tài liệu PDF.
public abstract class PdfExtractor : IDisposable
Kế thừa
Được kế thừa
Triển khai
Các thành viên kế thừa
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ví dụ
Ví dụ minh họa cách trích xuất nội dung văn bản của tài liệu PDF.
// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
// tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
textExtractorOptions = new TextExtractorOptions();
// thêm đường dẫn tệp đầu vào
textExtractorOptions.AddInput(new FileDataSource(inputPath));
// thực hiện quy trình trích xuất
ResultContainer resultContainer = extractor.Process(textExtractorOptions);
// lấy văn bản đã trích xuất từ đối tượng ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Nhận xét
Đối tượng Documentize.TextExtractor được sử dụng để trích xuất văn bản, hoặc Documentize.ImageExtractor để trích xuất hình ảnh.
Các hàm khởi tạo
PdfExtractor()
protected PdfExtractor()
Phương thức
Dispose()
Triển khai của IDisposable. Trên thực tế, không cần thiết cho PdfExtractor.
public void Dispose()
Process(IPluginOptions)
Bắt đầu quy trình PdfExtractor với các tham số được chỉ định.
public ResultContainer Process(IPluginOptions pdfExtractorOptions)
Tham số
pdfExtractorOptions
IPluginOptions: Một đối tượng tùy chọn chứa các hướng dẫn cho PdfExtractor.
Trả về
ResultContainer : Một đối tượng ResultContainer chứa kết quả của quá trình trích xuất.
Namespace: Documentize Assembly: Documentize.dll