C#에서 OCR PDF 및 PDF에서 텍스트 추출하기

PDF 문서는 많은 비즈니스 프로세스에서 중요한 역할을 하며, 종종 스캔된 콘텐츠에 대한 프로그래밍 방식의 접근이 필요합니다. 스캔한 PDF 파일에서 텍스트를 추출하는 것은 복잡할 수 있으며, 효과적인 도구가 필수적입니다. 이 튜토리얼에서는 강력한 Aspose.OCR for .NET API를 사용하여 C#에서 PDF 문서에 OCR을 수행하고 PDF에서 텍스트를 추출하는 방법을 살펴보겠습니다. 이 API는 무료 평가판으로 제공되는 선도적인 C# PDF 텍스트 추출 라이브러리입니다.

배울 내용

이 기사에서는 다음 주제를 다룹니다:

  1. Aspose.OCR for .NET API 개요
  2. PDF OCR 및 텍스트 추출 단계
  3. PDF에서 OCR 수행 및 텍스트 저장하기
  4. OCR PDF를 Word로 변환하기
  5. OCR PDF를 JSON으로 변환하기

Aspose.OCR for .NET API 개요

우리는 강력한 .NET Core PDF OCR 솔루션인 Aspose.OCR for .NET API를 활용할 것입니다. 이 API는 스캔한 이미지, 스마트폰 사진 및 스크린샷에서 텍스트를 인식하도록 특별히 설계되었으며, 다양한 문서 형식으로 결과를 반환합니다. 이미지를 텍스트로 변환할 뿐만 아니라 스캔한 내용을 검색 가능한 PDF로 만들고 인식된 텍스트의 철자 오류를 수정하여 단 99달러에 제공되는 가장 빠른 C# PDF OCR 솔루션 중 하나입니다.

API는 여러 OCR 작업을 위한 메서드를 제공하는 AsposeOcr 클래스를 특징으로 합니다. 특히, 지정된 PDF 문서에서 텍스트를 추출하는 데 필수적인 RecognizePdf(string, DocumentRecognitionSettings) 메서드가 있습니다. DocumentRecognitionSettings 클래스는 인식 프로세스를 사용자 정의할 수 있게 해주며, RecognitionResult 클래스는 인식 결과를 캡슐화합니다.

API의 DLL을 다운로드하거나 NuGet을 통해 설치할 수 있습니다:

PM> Install-Package Aspose.OCR

PDF OCR 및 텍스트 추출 단계

PDF 문서에 OCR을 수행하고 인식된 텍스트를 추출하려면 다음 단계를 따르세요:

  1. AsposeOcr 클래스의 인스턴스를 생성합니다.
  2. DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
  3. OCR을 위한 언어를 지정합니다.
  4. RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다. 이때 이미지 경로와 DocumentRecognitionSettings 객체를 전달합니다.
  5. RecognitionResult 목록을 반복하여 인식된 텍스트를 표시합니다.

다음은 C#에서 PDF 문서에 OCR을 수행하고 인식된 텍스트를 추출하는 방법을 설명하는 예제입니다:

C#에서 OCR PDF 및 PDF에서 텍스트 추출하기

C#에서 OCR PDF 및 PDF에서 텍스트 추출하기

PDF에서 OCR 수행 및 텍스트 저장하기

PDF 문서에 OCR을 수행하고 인식된 텍스트를 저장하려면 다음 단계를 따르세요:

  1. AsposeOcr 클래스의 인스턴스를 생성합니다.
  2. DocumentRecognitionSettings 클래스의 객체를 초기화합니다.
  3. OCR을 위한 언어를 지정합니다.
  4. RecognizePdf() 메서드를 호출하여 RecognitionResult를 얻습니다.
  5. 출력 파일 경로, SaveFormat, 및 RecognitionResult 객체를 요구하는 SaveMultipageDocument() 메서드를 사용하여 텍스트를 저장합니다.

다음은 C#에서 PDF 문서에 OCR을 수행하고 인식된 텍스트를 저장하는 방법을 설명하는 예제입니다:

C#에서 PDF에 OCR 수행 및 텍스트 저장하기

C#에서 PDF에 OCR 수행 및 텍스트 저장하기

OCR PDF를 Word로 변환하기

스캔한 PDF 문서를 Word로 변환하려면 앞서 설명한 단계를 따르되, 마지막 단계에서 SaveFormat.Docx를 지정합니다.

다음은 C#에서 OCR PDF를 수행하고 인식된 텍스트를 Word 문서로 저장하는 방법을 설명하는 예제입니다:

C#에서 OCR PDF 및 스캔한 PDF를 Word로 변환하기

C#에서 OCR PDF 및 스캔한 PDF를 Word로 변환하기

OCR PDF를 JSON으로 변환하기

PDF 문서에서 인식된 텍스트를 JSON 파일로 저장하려면 이전 단계를 따르되, 마지막 단계에서 SaveFormat.Json을 지정합니다.

다음은 C#에서 OCR PDF를 수행하고 인식된 텍스트를 JSON 파일로 저장하는 방법을 설명하는 예제입니다:

무료 평가 라이센스 받기

제한 없이 Aspose.OCR for .NET API를 평가할 수 있는 무료 임시 라이센스를 받을 수 있습니다.

결론

이 튜토리얼에서는 PDF 문서에 OCR을 수행하고 C#에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 또한 인식된 텍스트를 TXT, DOCX, 및 JSON 파일로 저장하는 방법을 살펴보았습니다. Aspose.OCR for .NET API에 대한 자세한 내용은 문서를 확인하세요. 질문이 있으시면 포럼에서 저희에게 문의해 주세요.

참조