
PDF 문서는 많은 비즈니스 프로세스에서 중요한 역할을 하며, 종종 스캔된 콘텐츠에 대한 프로그래밍 방식의 접근이 필요합니다. 스캔한 PDF 파일에서 텍스트를 추출하는 것은 복잡할 수 있으며, 효과적인 도구가 필수적입니다. 이 튜토리얼에서는 강력한 Aspose.OCR for .NET API를 사용하여 C#에서 PDF 문서에 OCR을 수행하고 PDF에서 텍스트를 추출하는 방법을 살펴보겠습니다. 이 API는 무료 평가판으로 제공되는 선도적인 C# PDF 텍스트 추출 라이브러리입니다.
배울 내용
이 기사에서는 다음 주제를 다룹니다:
- Aspose.OCR for .NET API 개요
- PDF OCR 및 텍스트 추출 단계
- PDF에서 OCR 수행 및 텍스트 저장하기
- OCR PDF를 Word로 변환하기
- OCR PDF를 JSON으로 변환하기
Aspose.OCR for .NET API 개요
우리는 강력한 .NET Core PDF OCR 솔루션인 Aspose.OCR for .NET API를 활용할 것입니다. 이 API는 스캔한 이미지, 스마트폰 사진 및 스크린샷에서 텍스트를 인식하도록 특별히 설계되었으며, 다양한 문서 형식으로 결과를 반환합니다. 이미지를 텍스트로 변환할 뿐만 아니라 스캔한 내용을 검색 가능한 PDF로 만들고 인식된 텍스트의 철자 오류를 수정하여 단 99달러에 제공되는 가장 빠른 C# PDF OCR 솔루션 중 하나입니다.
API는 여러 OCR 작업을 위한 메서드를 제공하는 AsposeOcr 클래스를 특징으로 합니다. 특히, 지정된 PDF 문서에서 텍스트를 추출하는 데 필수적인 RecognizePdf(string, DocumentRecognitionSettings) 메서드가 있습니다. DocumentRecognitionSettings 클래스는 인식 프로세스를 사용자 정의할 수 있게 해주며, RecognitionResult 클래스는 인식 결과를 캡슐화합니다.
API의 DLL을 다운로드하거나 NuGet을 통해 설치할 수 있습니다:
PM> Install-Package Aspose.OCR
PDF OCR 및 텍스트 추출 단계
PDF 문서에 OCR을 수행하고 인식된 텍스트를 추출하려면 다음 단계를 따르세요:
- AsposeOcr 클래스의 인스턴스를 생성합니다.
- DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
- OCR을 위한 언어를 지정합니다.
- RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다. 이때 이미지 경로와 DocumentRecognitionSettings 객체를 전달합니다.
- RecognitionResult 목록을 반복하여 인식된 텍스트를 표시합니다.
다음은 C#에서 PDF 문서에 OCR을 수행하고 인식된 텍스트를 추출하는 방법을 설명하는 예제입니다:

C#에서 OCR PDF 및 PDF에서 텍스트 추출하기
PDF에서 OCR 수행 및 텍스트 저장하기
PDF 문서에 OCR을 수행하고 인식된 텍스트를 저장하려면 다음 단계를 따르세요:
- AsposeOcr 클래스의 인스턴스를 생성합니다.
- DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
- OCR을 위한 언어를 지정합니다.
- RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
- 출력 파일 경로, SaveFormat, 및 RecognitionResult 객체를 요구하는 SaveMultipageDocument() 메서드를 사용하여 텍스트를 저장합니다.
다음은 C#에서 PDF 문서에 OCR을 수행하고 인식된 텍스트를 저장하는 방법을 설명하는 예제입니다:

C#에서 PDF에 OCR 수행 및 텍스트 저장하기
OCR PDF를 Word로 변환하기
스캔한 PDF 문서를 Word로 변환하려면 앞서 설명한 단계를 따르되, 마지막 단계에서 SaveFormat.Docx를 지정합니다.
다음은 C#에서 OCR PDF를 수행하고 인식된 텍스트를 Word 문서로 저장하는 방법을 설명하는 예제입니다:

C#에서 OCR PDF 및 스캔한 PDF를 Word로 변환하기
OCR PDF를 JSON으로 변환하기
PDF 문서에서 인식된 텍스트를 JSON 파일로 저장하려면 이전 단계를 따르되, 마지막 단계에서 SaveFormat.Json을 지정합니다.
다음은 C#에서 OCR PDF를 수행하고 인식된 텍스트를 JSON 파일로 저장하는 방법을 설명하는 예제입니다:
무료 평가 라이센스 받기
제한 없이 Aspose.OCR for .NET API를 평가할 수 있는 무료 임시 라이센스를 받을 수 있습니다.
결론
이 튜토리얼에서는 PDF 문서에 OCR을 수행하고 C#에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 또한 인식된 텍스트를 TXT, DOCX, 및 JSON 파일로 저장하는 방법을 살펴보았습니다. Aspose.OCR for .NET API에 대한 자세한 내용은 문서를 확인하세요. 질문이 있으시면 포럼에서 저희에게 문의해 주세요.