Lớp TextExtractorOptions
Đại diện cho các tùy chọn trích xuất văn bản cho plugin Documentize.TextExtractor.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
Kế thừa
object ← PdfExtractorOptions ← TextExtractorOptions
Thực thi
Thành viên kế thừa
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Ví dụ
Ví dụ này minh họa cách trích xuất nội dung văn bản của tài liệu PDF.
// tạo đối tượng TextExtractor để trích xuất nội dung PDF
using (TextExtractor extractor = new TextExtractor())
{
// tạo đối tượng TextExtractorOptions để thiết lập TextFormattingMode (Pure, hoặc Raw - mặc định)
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// thêm đường dẫn tệp đầu vào vào các nguồn dữ liệu
extractorOptions.AddInput(new FileDataSource(inputPath));
// thực hiện quá trình trích xuất
ResultContainer resultContainer = extractor.Process(extractorOptions);
// lấy văn bản đã trích xuất từ đối tượng ResultContainer
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
Nhận xét
Đối tượng Documentize.TextExtractorOptions được sử dụng để thiết lập Documentize.TextExtractorOptions.TextFormattingMode và các tùy chọn khác cho hoạt động trích xuất văn bản. Ngoài ra, nó kế thừa các chức năng để thêm dữ liệu (tệp, luồng) đại diện cho các tài liệu PDF đầu vào.
Các hàm khởi tạo
TextExtractorOptions(TextFormattingMode)
Khởi tạo một phiên bản mới của đối tượng Documentize.TextExtractorOptions cho chế độ định dạng văn bản đã chỉ định.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
Tham số
formattingMode
TextExtractorOptions.TextFormattingMode: Giá trị chế độ định dạng văn bản.
TextExtractorOptions()
Khởi tạo một phiên bản mới của đối tượng Documentize.TextExtractorOptions với chế độ định dạng văn bản ‘Raw’ (mặc định).
public TextExtractorOptions()
Các thuộc tính
FormattingMode
Lấy chế độ định dạng.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
Giá trị thuộc tính
TextExtractorOptions.TextFormattingMode
OperationName
Trả về tên của hoạt động.
public override string OperationName { get; }
Giá trị thuộc tính
Namespace: Documentize Assembly: Documentize.dll