Class PdfExtractor
Đại diện cho plugin Documentize.PdfExtractor. Được sử dụng để Trích xuất Văn bản, Hình ảnh, Dữ liệu Biểu mẫu, Thuộc tính (Siêu dữ liệu) từ tài liệu PDF.
public static class PdfExtractorKế thừa
Thành viên kế thừa
- object.GetType(),
- object.MemberwiseClone(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
Phương thức
Extract(ExtractTextOptions)
Trích xuất văn bản từ tài liệu PDF.
public static ResultContainer Extract(ExtractTextOptions options)Tham số
optionsExtractTextOptions: Một đối tượng tùy chọn chứa hướng dẫn cho thao tác.
Trả về
ResultContainer : Một đối tượng chứa kết quả của quá trình trích xuất.
Ví dụ
Ví dụ dưới đây minh họa cách Trích xuất nội dung Văn bản của tài liệu PDF.
// Create ExtractTextOptions object to set instructions
var options = new ExtractTextOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();Ví dụ dưới đây minh họa cách Trích xuất nội dung Văn bản của tài liệu PDF với TextFormattingMode.
// Create ExtractTextOptions object to set TextFormattingMode
var options = new ExtractTextOptions(TextFormattingMode.Pure);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get the extracted text from the ResultContainer object
var textExtracted = results.ResultCollection[0].ToString();Ngoại lệ
Nếu không thiết lập options.
Extract(ExtractImagesOptions)
Trích xuất hình ảnh từ tài liệu PDF.
public static ResultContainer Extract(ExtractImagesOptions options)Tham số
optionsExtractImagesOptions: Một đối tượng tùy chọn chứa hướng dẫn cho thao tác.
Trả về
ResultContainer : Một đối tượng chứa kết quả của thao tác.
Ví dụ
Ví dụ dưới đây minh họa cách Trích xuất Hình ảnh từ tài liệu PDF.
// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output Directory path
options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
// Perform the process
var results = PdfExtractor.Extract(options);
// Get path to image result
var imageExtracted = results.ResultCollection[0].ToFile();Ví dụ dưới đây minh họa cách Trích xuất Hình ảnh từ tài liệu PDF tới Streams mà không tạo thư mục.
// Create ExtractImagesOptions to set instructions
var options = new ExtractImagesOptions();
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Not set output - it will write results to streams
// Perform the process
var results = PdfExtractor.Extract(options);
// Get Stream
var ms = results.ResultCollection[0].ToStream();
// Copy data to file for demo
ms.Seek(0, SeekOrigin.Begin);
using (var fs = File.Create("test_file.png"))
{
ms.CopyTo(fs);
}Ngoại lệ
Nếu không thiết lập options.
Extract(ExtractFormDataToDsvOptions)
Trích xuất Dữ liệu Biểu mẫu từ tài liệu PDF.
public static ResultContainer Extract(ExtractFormDataToDsvOptions options)Tham số
optionsExtractFormDataToDsvOptions: Một đối tượng tùy chọn chứa hướng dẫn cho thao tác.
Trả về
ResultContainer : Một đối tượng chứa kết quả của thao tác.
Ví dụ
Ví dụ dưới đây minh họa cách Xuất giá trị Biểu mẫu ra file CSV.
// Create ExtractFormDataToDsvOptions object to set instructions
var options = new ExtractFormDataToDsvOptions(',', true);
// Add input file path
options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
// Set output file path
options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
// Perform the process
PdfExtractor.Extract(options);Ngoại lệ
Nếu không thiết lập options.
Extract(ExtractPropertiesOptions)
Trích xuất Thuộc tính từ tài liệu PDF.
public static PdfProperties Extract(ExtractPropertiesOptions options)Tham số
optionsExtractPropertiesOptions: Một đối tượng tùy chọn chứa hướng dẫn cho thao tác.
Trả về
PdfProperties : Một đối tượng chứa kết quả của thao tác.
Ví dụ
Ví dụ dưới đây minh họa cách Trích xuất Thuộc tính (Tiêu đề, Tác giả, Chủ đề, Từ khóa, Số trang) từ file PDF.
// Create ExtractPropertiesOptions object to set input file
var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var numberOfPages = pdfProperties.NumberOfPages;Ví dụ dưới đây minh họa cách Trích xuất Thuộc tính (Tiêu đề, Tác giả, Chủ đề, Từ khóa, Số trang) từ stream PDF.
// Create ExtractPropertiesOptions object to set input stream
var stream = File.OpenRead("path_to_your_pdf_file.pdf");
var options = new ExtractPropertiesOptions(stream);
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(options);
var title = pdfProperties.Title;
var author = pdfProperties.Author;
var subject = pdfProperties.Subject;
var keywords = pdfProperties.Keywords;
var numberOfPages = pdfProperties.NumberOfPages;Ví dụ dưới đây minh họa cách Trích xuất Thuộc tính từ file PDF bằng cách ngắn gọn nhất.
// Perform the process and get Properties
var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));Ngoại lệ
Nếu không thiết lập options.
Không gian tên: Documentize Tập lắp ráp: Documentize.dll