OCR PDF a extrakce textu z PDF v C#

PDF dokumenty hrají klíčovou roli v mnoha obchodních procesech, často vyžadují programový přístup k jejich naskenovanému obsahu. Extrakce textu z naskenovaných PDF souborů může být složitá, což činí efektivní nástroje nezbytnými. V tomto tutoriálu prozkoumáme jak provádět OCR PDF dokumenty a extrahovat text z PDF v C# pomocí výkonného Aspose.OCR pro .NET API, přední knihovny C# pro extrakci textu z PDF dostupné pro bezplatné vyzkoušení.

Co se naučíte

V tomto článku pokryjeme následující témata:

  1. Přehled Aspose.OCR pro .NET API
  2. Kroky k OCR PDF a extrakci textu
  3. Jak provádět OCR na PDF a uložit text
  4. Převod OCR PDF na Word
  5. Převod OCR PDF na JSON

Přehled Aspose.OCR pro .NET API

Využijeme Aspose.OCR pro .NET API, robustní .NET Core PDF OCR řešení. Toto API je speciálně navrženo pro rozpoznávání textu z naskenovaných obrázků, fotografií ze smartphonů a screenshotů, přičemž vrací výsledky v různých formátech dokumentů. Nejenže převádí obrázky na text, ale také vytváří prohledávatelné PDF z naskenovaných dokumentů a opravuje jakékoli pravopisné chyby v rozpoznaném textu, což z něj činí jedno z nejrychlejších C# PDF OCR řešení dostupných za pouhých 99 $.

API obsahuje třídu AsposeOcr, která nabízí více metod pro OCR operace. Zvláště důležitá je metoda RecognizePdf(string, DocumentRecognitionSettings), která je nezbytná pro extrakci textu ze specifikovaného PDF dokumentu. Třída DocumentRecognitionSettings vám umožňuje přizpůsobit proces rozpoznávání, zatímco třída RecognitionResult encapsuluje výsledky rozpoznávání.

Můžete si stáhnout DLL API nebo jej nainstalovat pomocí NuGet:

PM> Install-Package Aspose.OCR

Kroky k OCR PDF a extrakci textu v C#

Chcete-li provést OCR na PDF dokumentech a extrahovat rozpoznaný text, postupujte podle těchto kroků:

  1. Vytvořte instanci třídy AsposeOcr.
  2. Inicializujte objekt třídy DocumentRecognitionSettings.
  3. Určete jazyk pro OCR.
  4. Získejte RecognitionResult vyvoláním metody RecognizePdf(), přičemž předáte cestu k obrázku a objekt DocumentRecognitionSettings.
  5. Procházejte seznam RecognitionResult, abyste zobrazili identifikovaný text.

Zde je příklad ilustrující jak provádět OCR PDF dokumenty a extrahovat rozpoznaný text v C#:

OCR PDF a extrakce textu z PDF v C#

OCR PDF a extrakce textu z PDF v C#

Jak provádět OCR na PDF a uložit text v C#

Chcete-li provést OCR na PDF dokumentech a uložit rozpoznaný text, postupujte podle těchto kroků:

  1. Vytvořte instanci třídy AsposeOcr.
  2. Inicializujte objekt třídy DocumentRecognitionSettings.
  3. Určete jazyk pro OCR.
  4. Zavolejte metodu RecognizePdf() pro získání RecognitionResult.
  5. Uložte text pomocí metody SaveMultipageDocument(), která vyžaduje cestu k výstupnímu souboru, SaveFormat a objekt RecognitionResult.

Zde je příklad demonstrující jak provádět OCR PDF dokumenty a uložit rozpoznaný text v C#:

Provádění OCR na PDF a uložení textu v C#

Provádění OCR na PDF a uložení textu v C#

Převod OCR PDF na Word v C#

Chcete-li převést naskenované PDF dokumenty na Word, postupujte podle stejných kroků, jak bylo uvedeno výše, ale v posledním kroku určete SaveFormat.Docx.

Zde je příklad ilustrující jak provádět OCR PDF a uložit rozpoznaný text jako Word dokument v C#:

OCR PDF a převod naskenovaného PDF na Word v C#

OCR PDF a převod naskenovaného PDF na Word v C#

Převod OCR PDF na JSON v C#

Chcete-li uložit rozpoznaný text z PDF dokumentů do JSON souboru, postupujte podle předchozích kroků s jedinou změnou, a to specifikovat SaveFormat.Json v posledním kroku.

Zde je příklad demonstrující jak provádět OCR PDF a uložit rozpoznaný text jako JSON soubor v C#:

Získejte bezplatnou zkušební licenci

Můžete získat bezplatnou dočasnou licenci pro vyzkoušení Aspose.OCR pro .NET API bez jakýchkoli omezení.

Závěr

V tomto tutoriálu jsme se naučili, jak provádět OCR na PDF dokumentech a extrahovat text z PDF v C#. Také jsme prozkoumali, jak uložit rozpoznaný text jako TXT, DOCX a JSON soubor. Pro více informací o Aspose.OCR pro .NET API se podívejte na jeho dokumentaci. Pokud máte jakékoli dotazy, neváhejte se na nás obrátit na našem fóru.

Viz také