OCR PDF và Trích xuất Văn bản từ PDF trong C#

Tài liệu PDF là phần không thể thiếu trong nhiều quy trình kinh doanh, thường yêu cầu truy cập lập trình vào nội dung đã quét của chúng. Việc trích xuất văn bản từ các tệp PDF đã quét có thể phức tạp, khiến các công cụ hiệu quả trở nên cần thiết. Trong hướng dẫn này, chúng ta sẽ khám phá cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ PDF trong C# bằng cách sử dụng Aspose.OCR cho .NET API, một thư viện trích xuất văn bản PDF C# hàng đầu có sẵn để đánh giá miễn phí.

Những gì bạn sẽ học

Trong bài viết này, chúng tôi sẽ đề cập đến các chủ đề sau:

  1. Tổng quan về Aspose.OCR cho .NET API
  2. Các bước để thực hiện OCR PDF và Trích xuất Văn bản
  3. Cách thực hiện OCR trên PDF và Lưu Văn bản
  4. Chuyển đổi OCR PDF sang Word
  5. Chuyển đổi OCR PDF sang JSON

Tổng quan về Aspose.OCR cho .NET API

Chúng tôi sẽ sử dụng Aspose.OCR cho .NET API, một giải pháp OCR PDF .NET Core mạnh mẽ. API này được thiết kế đặc biệt để nhận diện văn bản từ hình ảnh đã quét, ảnh từ điện thoại thông minh và ảnh chụp màn hình, trả về kết quả ở nhiều định dạng tài liệu khác nhau. Nó không chỉ chuyển đổi hình ảnh thành văn bản mà còn tạo ra các PDF có thể tìm kiếm từ các bản quét và sửa chữa bất kỳ lỗi chính tả nào trong văn bản đã nhận diện, khiến nó trở thành một trong những giải pháp OCR PDF C# nhanh nhất hiện có với giá chỉ 99 đô la.

API có lớp AsposeOcr cung cấp nhiều phương thức cho các thao tác OCR. Đặc biệt, phương thức RecognizePdf(string, DocumentRecognitionSettings) là cần thiết để trích xuất văn bản từ một tài liệu PDF đã chỉ định. Lớp DocumentRecognitionSettings cho phép bạn tùy chỉnh quy trình nhận diện, trong khi lớp RecognitionResult bao gồm các kết quả của quá trình nhận diện.

Bạn có thể tải xuống DLL của API hoặc cài đặt nó qua NuGet:

PM> Install-Package Aspose.OCR

Các bước để thực hiện OCR PDF và Trích xuất Văn bản trong C#

Để thực hiện OCR trên tài liệu PDF và trích xuất văn bản đã nhận diện, hãy làm theo các bước sau:

  1. Tạo một thể hiện của lớp AsposeOcr.
  2. Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
  3. Chỉ định ngôn ngữ cho OCR.
  4. Nhận RecognitionResult bằng cách gọi phương thức RecognizePdf(), truyền đường dẫn hình ảnh và đối tượng DocumentRecognitionSettings.
  5. Lặp qua danh sách RecognitionResult để hiển thị văn bản đã xác định.

Dưới đây là một ví dụ minh họa cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản đã nhận diện trong C#:

OCR PDF và Trích xuất Văn bản từ PDF trong C#

OCR PDF và Trích xuất Văn bản từ PDF trong C#

Cách thực hiện OCR trên PDF và Lưu Văn bản trong C#

Để thực hiện OCR trên tài liệu PDF và lưu văn bản đã nhận diện, hãy làm theo các bước sau:

  1. Tạo một thể hiện của lớp AsposeOcr.
  2. Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
  3. Chỉ định ngôn ngữ cho OCR.
  4. Gọi phương thức RecognizePdf() để nhận RecognitionResult.
  5. Lưu văn bản bằng cách sử dụng phương thức SaveMultipageDocument(), yêu cầu đường dẫn tệp đầu ra, SaveFormat và đối tượng RecognitionResult.

Dưới đây là một ví dụ minh họa cách thực hiện OCR trên tài liệu PDF và lưu văn bản đã nhận diện trong C#:

Thực hiện OCR trên PDF và Lưu Văn bản trong C#

Thực hiện OCR trên PDF và Lưu Văn bản trong C#

Chuyển đổi OCR PDF sang Word trong C#

Để chuyển đổi tài liệu PDF đã quét sang Word, hãy làm theo các bước giống như đã nêu ở trên, nhưng chỉ định SaveFormat.Docx trong bước cuối cùng.

Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tài liệu Word trong C#:

OCR PDF và Chuyển đổi PDF đã quét sang Word trong C#

OCR PDF và Chuyển đổi PDF đã quét sang Word trong C#

Chuyển đổi OCR PDF sang JSON trong C#

Để lưu văn bản đã nhận diện từ tài liệu PDF vào tệp JSON, hãy làm theo các bước trước đó với chỉ một thay đổi là chỉ định SaveFormat.Json trong bước cuối cùng.

Dưới đây là một ví dụ minh họa cách thực hiện OCR PDF và lưu văn bản đã nhận diện dưới dạng tệp JSON trong C#:

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để đánh giá Aspose.OCR cho .NET API mà không có bất kỳ hạn chế nào.

Kết luận

Trong hướng dẫn này, chúng tôi đã học cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ PDF trong C#. Chúng tôi cũng đã khám phá cách lưu văn bản đã nhận diện dưới dạng tệp TXT, DOCX, và JSON. Để biết thêm thông tin về Aspose.OCR cho .NET API, hãy xem tài liệu. Nếu bạn có bất kỳ câu hỏi nào, hãy liên hệ với chúng tôi trên diễn đàn.

Xem thêm