OCR PDF och extrahera text från PDF i C#

PDF-dokument spelar en avgörande roll i många affärsprocesser, vilket ofta kräver programmatisk åtkomst till deras skannade innehåll. Att extrahera text från skannade PDF-filer kan vara komplext, vilket gör effektiva verktyg avgörande. I denna handledning kommer vi att utforska hur man OCR PDF-dokument och extrahera text från PDF i C# med det kraftfulla Aspose.OCR för .NET API, ett ledande C# PDF-textextraktionsbibliotek som är tillgängligt för gratis utvärdering.

Vad du kommer att lära dig

I denna artikel kommer vi att täcka följande ämnen:

  1. Översikt över Aspose.OCR för .NET API
  2. Steg för att OCR PDF och extrahera text
  3. Hur man utför OCR på PDF och sparar text
  4. Konvertera OCR PDF till Word
  5. Konvertera OCR PDF till JSON

Översikt över Aspose.OCR för .NET API

Vi kommer att använda Aspose.OCR för .NET API, en robust .NET Core PDF OCR-lösning. Detta API är specifikt utformat för att känna igen text från skannade bilder, smartphone-foton och skärmdumpar, och returnerar resultat i olika dokumentformat. Det konverterar inte bara bilder till text utan skapar också sökbara PDF-filer från skanningar och korrigerar eventuella stavfel i den igenkända texten, vilket gör det till en av de snabbaste C# PDF OCR-lösningarna som finns tillgängliga för endast $99.

API:et innehåller klassen AsposeOcr, som erbjuder flera metoder för OCR-operationer. Särskilt är metoden RecognizePdf(string, DocumentRecognitionSettings) avgörande för att extrahera text från ett specificerat PDF-dokument. Klassen DocumentRecognitionSettings låter dig anpassa igenkänningsprocessen, medan klassen RecognitionResult kapslar in resultaten av igenkänningen.

Du kan ladda ner DLL:en för API:et eller installera den via NuGet:

PM> Install-Package Aspose.OCR

Steg för att OCR PDF och extrahera text i C#

För att utföra OCR på PDF-dokument och extrahera den igenkända texten, följ dessa steg:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Ange språket för OCR.
  4. RecognitionResult genom att anropa metoden RecognizePdf(), och skicka bildens sökväg och objektet DocumentRecognitionSettings.
  5. Loopa genom listan RecognitionResult för att visa den identifierade texten.

Här är ett exempel som illustrerar hur man OCR PDF-dokument och extrahera igenkänd text i C#:

OCR PDF och extrahera text från PDF i C#

OCR PDF och extrahera text från PDF i C#

Hur man utför OCR på PDF och sparar text i C#

För att utföra OCR på PDF-dokument och spara den igenkända texten, följ dessa steg:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Ange språket för OCR.
  4. Anropa metoden RecognizePdf() för att få RecognitionResult.
  5. Spara texten med metoden SaveMultipageDocument(), som kräver sökvägen till utdatafilen, SaveFormat och objektet RecognitionResult.

Här är ett exempel som demonstrerar hur man OCR PDF-dokument och spara den igenkända texten i C#:

Utför OCR på PDF och spara text i C#

Utför OCR på PDF och spara text i C#

Konvertera OCR PDF till Word i C#

För att konvertera skannade PDF-dokument till Word, följ samma steg som tidigare, men ange SaveFormat.Docx i det sista steget.

Här är ett exempel som illustrerar hur man OCR PDF och spara den igenkända texten som ett Word-dokument i C#:

OCR PDF och konvertera skannad PDF till Word i C#

OCR PDF och konvertera skannad PDF till Word i C#

Konvertera OCR PDF till JSON i C#

För att spara igenkänd text från PDF-dokument i en JSON-fil, följ de tidigare stegen med den enda ändringen att ange SaveFormat.Json i det sista steget.

Här är ett exempel som demonstrerar hur man OCR PDF och spara den igenkända texten som en JSON-fil i C#:

Få en gratis utvärderingslicens

Du kan skaffa en gratis tillfällig licens för att utvärdera Aspose.OCR för .NET API utan några begränsningar.

Slutsats

I denna handledning lärde vi oss hur man utför OCR på PDF-dokument och extrahera text från PDF i C#. Vi utforskade också hur man sparar den igenkända texten som en TXT, DOCX och JSON fil. För mer information om Aspose.OCR för .NET API, kolla in dess dokumentation. Om du har några frågor, tveka inte att kontakta oss på vårt forum.

Se även