Scanned PDF to Word OCR C#

Skanowane pliki PDF często składają się z obrazów, co sprawia, że tekst jest niemożliwy do zaznaczenia i edytowania. W różnych scenariuszach może być konieczne przekształcenie skanowanego PDF na dokumenty Word. Ten artykuł poprowadzi Cię przez kroki, aby programowo przekształcić skanowane pliki PDF na dokumenty Word w formacie DOCX lub DOC przy użyciu C#.

Spis treści

1. Instalacja API C# do konwersji skanowanego PDF na Word DOCX

Aby skutecznie pracować z zeskanowanymi plikami PDF, możesz skorzystać z rozpoznawania znaków optycznych (OCR) przy użyciu API Aspose.OCR for .NET. Po rozpoznaniu tekstu możesz utworzyć dokument Word, wykorzystując API Aspose.Words for .NET. Możesz zainstalować te API, pobierając pliki DLL z sekcji Nowe wydania lub używając następujących poleceń instalacyjnych NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. Programowa konwersja skanowanego PDF na dokument Word

Aby przekształcić skanowane pliki PDF na dokumenty Word, musisz rozpoznać tekst za pomocą OCR. Proces ten przekształca skanowany PDF w edytowalny tekst, który następnie można sformatować w dokumencie Word w formacie DOC lub DOCX. Wykonaj te kroki, aby osiągnąć konwersję skanowanego PDF na DOC w C# .NET:

  1. Zainicjalizuj instancję klasy AsposeOcr.
  2. Użyj klasy DocumentRecognitionSettings, aby rozpoznać obrazy z PDF.
  3. Utwórz obiekt StringBuilder, aby przechować rozpoznany tekst.
  4. Zainicjalizuj dokument Word przy użyciu klasy Document.
  5. Określ potrzebne formatowanie czcionki i akapitu.
  6. Zapisz wyjściowy dokument Word w formacie DOCX lub DOC.

Oto fragment kodu ilustrujący, jak programowo przekształcić zeskanowany plik PDF na dokument Word przy użyciu C#:

3. Uzyskanie bezpłatnej licencji ewaluacyjnej

Możesz przetestować API w pełni, żądając bezpłatnej tymczasowej licencji.

4. Podsumowanie

W tym artykule nauczyłeś się, jak programowo przekształcić zeskanowany plik PDF na dokument Word w formacie DOCX lub DOC przy użyciu C#. Dodatkowo możesz odkryć różne inne funkcje związane z OCR, odwiedzając dokumentację. Jeśli masz jakiekolwiek pytania, nie wahaj się skontaktować z nami na forum.

5. Dodatkowe zasoby

Wskazówka: Jeśli kiedykolwiek będziesz musiał przekształcić prezentację PowerPoint w dokument Word, rozważ użycie konwertera Aspose Prezentacja na dokument Word.

Korzystając z wtyczki Aspose, możesz skutecznie zarządzać zeskanowanymi plikami i ulepszyć swoje aplikacje .NET za jedyne 99 USD. Dzięki najlepszej bibliotece C# do konwersji PDF na Word możesz osiągnąć wysoką jakość konwersji PDF na Word i bezproblemowo usprawnić swój przepływ pracy. Niezależnie od tego, czy chcesz przekształcić PDF oparty na obrazie na Word, czy szukasz wydajnego konwertera PDF na Word C# .NET, Aspose zapewnia narzędzia, których potrzebujesz do bezproblemowej integracji i funkcjonalności.

Ten przewodnik stanowi kompleksowe źródło dla tych, którzy są zainteresowani konwersją zeskanowanych dokumentów na Word C# i dostarcza praktyczny kod C# do konwersji PDF na Word przy użyciu biblioteki OCR .NET do PDF na Word.