OCR PDF i ekstrakcja tekstu z PDF w C#

Dokumenty PDF odgrywają kluczową rolę w wielu procesach biznesowych, często wymagając programowego dostępu do ich zeskanowanej zawartości. Ekstrakcja tekstu z zeskanowanych plików PDF może być skomplikowana, co czyni skuteczne narzędzia niezbędnymi. W tym samouczku zbadamy jak wykonać OCR na dokumentach PDF i ekstraktować tekst z PDF w C# przy użyciu potężnego Aspose.OCR dla .NET API, wiodącej biblioteki do ekstrakcji tekstu z PDF w C# dostępnej do bezpłatnej oceny.

Czego się nauczysz

W tym artykule omówimy następujące tematy:

  1. Przegląd Aspose.OCR dla .NET API
  2. Kroki do OCR PDF i ekstrakcji tekstu
  3. Jak wykonać OCR na PDF i zapisać tekst
  4. Konwersja OCR PDF do Word
  5. Konwersja OCR PDF do JSON

Przegląd Aspose.OCR dla .NET API

Będziemy korzystać z Aspose.OCR dla .NET API, solidnego rozwiązania OCR PDF dla .NET Core. To API jest specjalnie zaprojektowane do rozpoznawania tekstu z zeskanowanych obrazów, zdjęć z telefonów komórkowych i zrzutów ekranu, zwracając wyniki w różnych formatach dokumentów. Nie tylko konwertuje obrazy na tekst, ale także tworzy przeszukiwalne PDF-y z zeskanowanych dokumentów i poprawia wszelkie błędy ortograficzne w rozpoznanym tekście, co czyni je jednym z najszybszych rozwiązań OCR PDF w C# dostępnych za jedyne 99 USD.

API zawiera klasę AsposeOcr, która oferuje wiele metod do operacji OCR. Szczególnie istotna jest metoda RecognizePdf(string, DocumentRecognitionSettings), która jest niezbędna do ekstrakcji tekstu z określonego dokumentu PDF. Klasa DocumentRecognitionSettings pozwala na dostosowanie procesu rozpoznawania, podczas gdy klasa RecognitionResult encapsulates the results of the recognition.

Możesz pobrać DLL API lub zainstalować je za pomocą NuGet:

PM> Install-Package Aspose.OCR

Kroki do OCR PDF i ekstrakcji tekstu w C#

Aby wykonać OCR na dokumentach PDF i ekstraktować rozpoznany tekst, wykonaj następujące kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Uzyskaj RecognitionResult wywołując metodę RecognizePdf(), przekazując ścieżkę do obrazu i obiekt DocumentRecognitionSettings.
  5. Przejdź przez listę RecognitionResult, aby wyświetlić zidentyfikowany tekst.

Oto przykład ilustrujący jak wykonać OCR na dokumentach PDF i ekstraktować rozpoznany tekst w C#:

OCR PDF i ekstrakcja tekstu z PDF w C#

OCR PDF i ekstrakcja tekstu z PDF w C#

Jak wykonać OCR na PDF i zapisać tekst w C#

Aby wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonaj następujące kroki:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjalizuj obiekt klasy DocumentRecognitionSettings.
  3. Określ język dla OCR.
  4. Wywołaj metodę RecognizePdf(), aby uzyskać RecognitionResult.
  5. Zapisz tekst za pomocą metody SaveMultipageDocument(), która wymaga ścieżki do pliku wyjściowego, SaveFormat i obiektu RecognitionResult.

Oto przykład ilustrujący jak wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst w C#:

Wykonaj OCR na PDF i zapisz tekst w C#

Wykonaj OCR na PDF i zapisz tekst w C#

Konwersja OCR PDF do Word w C#

Aby przekonwertować zeskanowane dokumenty PDF na Word, wykonaj te same kroki, co wcześniej, ale określ SaveFormat.Docx w ostatnim kroku.

Oto przykład ilustrujący jak wykonać OCR PDF i zapisać rozpoznany tekst jako dokument Word w C#:

OCR PDF i konwersja zeskanowanego PDF do Word w C#

OCR PDF i konwersja zeskanowanego PDF do Word w C#

Konwersja OCR PDF do JSON w C#

Aby zapisać rozpoznany tekst z dokumentów PDF w pliku JSON, wykonaj poprzednie kroki z jedyną zmianą polegającą na określeniu SaveFormat.Json w ostatnim kroku.

Oto przykład ilustrujący jak wykonać OCR PDF i zapisać rozpoznany tekst jako plik JSON w C#:

Uzyskaj bezpłatną licencję do oceny

Możesz uzyskać bezpłatną tymczasową licencję, aby ocenić Aspose.OCR dla .NET API bez żadnych ograniczeń.

Podsumowanie

W tym samouczku nauczyliśmy się, jak wykonać OCR na dokumentach PDF i ekstraktować tekst z PDF w C#. Zbadaliśmy również, jak zapisać rozpoznany tekst jako plik TXT, DOCX i JSON. Aby uzyskać więcej informacji na temat Aspose.OCR dla .NET API, zapoznaj się z jego dokumentacją. Jeśli masz jakiekolwiek pytania, skontaktuj się z nami na naszym forum.

Zobacz także