클래스 TextExtractorOptions
참고
Documentize.TextExtractor 플러그인을 위한 텍스트 추출 옵션을 나타냅니다.
public sealed class TextExtractorOptions : PdfExtractorOptions, IPluginOptions
상속
object ←
PdfExtractorOptions ←
TextExtractorOptions
구현
상속된 멤버
- PdfExtractorOptions.AddInput(IDataSource),
- PdfExtractorOptions.Inputs,
- PdfExtractorOptions.OperationName,
- object.GetType(),
- object.ToString(),
- object.Equals(object?),
- object.Equals(object?, object?),
- object.ReferenceEquals(object?, object?),
- object.GetHashCode()
예제
이 예제는 PDF 문서의 텍스트 내용을 추출하는 방법을 보여줍니다.
// PDF 내용을 추출하기 위해 TextExtractor 객체를 생성합니다.
using (TextExtractor extractor = new TextExtractor())
{
// TextFormattingMode (순수 또는 원시 - 기본값)를 설정하기 위해 TextExtractorOptions 객체를 생성합니다.
extractorOptions = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
// 데이터 소스에 입력 파일 경로를 추가합니다.
extractorOptions.AddInput(new FileDataSource(inputPath));
// 추출 프로세스를 수행합니다.
ResultContainer resultContainer = extractor.Process(extractorOptions);
// ResultContainer 객체에서 추출된 텍스트를 가져옵니다.
string textExtracted = resultContainer.ResultCollection[0].ToString();
}
비고
Documentize.TextExtractorOptions 객체는 Documentize.TextExtractorOptions.TextFormattingMode 및 텍스트 추출 작업을 위한 다른 옵션을 설정하는 데 사용됩니다.
또한 입력 PDF 문서를 나타내는 데이터(파일, 스트림)를 추가하는 기능을 상속받습니다.
생성자
TextExtractorOptions(TextFormattingMode)
지정된 텍스트 형식 모드에 대한 Documentize.TextExtractorOptions 객체의 새 인스턴스를 초기화합니다.
public TextExtractorOptions(TextExtractorOptions.TextFormattingMode formattingMode)
매개변수
formattingMode
TextExtractorOptions.TextFormattingMode: 텍스트 형식 모드 값.
TextExtractorOptions()
‘원시’(기본값) 텍스트 형식 모드로 Documentize.TextExtractorOptions 객체의 새 인스턴스를 초기화합니다.
public TextExtractorOptions()
속성
FormattingMode
형식 모드를 가져옵니다.
public TextExtractorOptions.TextFormattingMode FormattingMode { get; }
속성 값
TextExtractorOptions.TextFormattingMode
OperationName
작업 이름을 반환합니다.
public override string OperationName { get; }
속성 값
네임스페이스: Documentize
어셈블리: Documentize.dll