OCR PDF et extraire du texte à partir de PDF en C#

Les documents PDF jouent un rôle crucial dans de nombreux processus commerciaux, nécessitant souvent un accès programmatique à leur contenu numérisé. L’extraction de texte à partir de fichiers PDF numérisés peut être complexe, rendant des outils efficaces essentiels. Dans ce tutoriel, nous allons explorer comment OCR des documents PDF et extraire du texte à partir de PDF en C# en utilisant la puissante API Aspose.OCR pour .NET, une bibliothèque d’extraction de texte PDF C# de premier plan disponible pour évaluation gratuite.

Ce que vous allez apprendre

Dans cet article, nous allons aborder les sujets suivants :

  1. Aperçu de l’API Aspose.OCR pour .NET
  2. Étapes pour OCR PDF et extraire du texte
  3. Comment effectuer l’OCR sur PDF et enregistrer le texte
  4. Conversion de PDF OCR en Word
  5. Conversion de PDF OCR en JSON

Aperçu de l’API Aspose.OCR pour .NET

Nous allons utiliser l’API Aspose.OCR pour .NET, une solution OCR PDF robuste pour .NET Core. Cette API est spécifiquement conçue pour reconnaître du texte à partir d’images numérisées, de photos prises par smartphone et de captures d’écran, retournant des résultats dans divers formats de documents. Elle ne se contente pas de convertir des images en texte, mais crée également des PDF consultables à partir de numérisations et corrige toute faute d’orthographe dans le texte reconnu, ce qui en fait l’une des solutions OCR PDF C# les plus rapides disponibles pour seulement 99 $.

L’API propose la classe AsposeOcr, qui offre plusieurs méthodes pour les opérations OCR. Notamment, la méthode RecognizePdf(string, DocumentRecognitionSettings) est essentielle pour extraire du texte d’un document PDF spécifié. La classe DocumentRecognitionSettings vous permet de personnaliser le processus de reconnaissance, tandis que la classe RecognitionResult encapsule les résultats de la reconnaissance.

Vous pouvez télécharger le DLL de l’API ou l’installer via NuGet:

PM> Install-Package Aspose.OCR

Étapes pour OCR PDF et extraire du texte en C#

Pour effectuer l’OCR sur des documents PDF et extraire le texte reconnu, suivez ces étapes :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Spécifiez la langue pour l’OCR.
  4. Obtenez le RecognitionResult en invoquant la méthode RecognizePdf(), en passant le chemin de l’image et l’objet DocumentRecognitionSettings.
  5. Parcourez la liste RecognitionResult pour afficher le texte identifié.

Voici un exemple illustrant comment OCR des documents PDF et extraire le texte reconnu en C# :

OCR PDF et extraire du texte à partir de PDF en C#

OCR PDF et extraire du texte à partir de PDF en C#

Comment effectuer l’OCR sur PDF et enregistrer le texte en C#

Pour effectuer l’OCR sur des documents PDF et enregistrer le texte reconnu, suivez ces étapes :

  1. Créez une instance de la classe AsposeOcr.
  2. Initialisez un objet de la classe DocumentRecognitionSettings.
  3. Spécifiez la langue pour l’OCR.
  4. Appelez la méthode RecognizePdf() pour obtenir le RecognitionResult.
  5. Enregistrez le texte en utilisant la méthode SaveMultipageDocument(), qui nécessite le chemin du fichier de sortie, le SaveFormat et l’objet RecognitionResult.

Voici un exemple démontrant comment OCR des documents PDF et enregistrer le texte reconnu en C# :

Effectuer l'OCR sur PDF et enregistrer le texte en C#

Effectuer l’OCR sur PDF et enregistrer le texte en C#

Conversion de PDF OCR en Word en C#

Pour convertir des documents PDF numérisés en Word, suivez les mêmes étapes que celles décrites précédemment, mais spécifiez SaveFormat.Docx dans la dernière étape.

Voici un exemple illustrant comment OCR PDF et enregistrer le texte reconnu en tant que document Word en C# :

OCR PDF et convertir PDF numérisé en Word en C#

OCR PDF et convertir PDF numérisé en Word en C#

Conversion de PDF OCR en JSON en C#

Pour enregistrer le texte reconnu à partir de documents PDF dans un fichier JSON, suivez les étapes précédentes avec la seule modification de spécifier SaveFormat.Json dans la dernière étape.

Voici un exemple démontrant comment OCR PDF et enregistrer le texte reconnu en tant que fichier JSON en C# :

Obtenir une licence d’évaluation gratuite

Vous pouvez obtenir une licence temporaire gratuite pour évaluer l’API Aspose.OCR pour .NET sans aucune limitation.

Conclusion

Dans ce tutoriel, nous avons appris à effectuer l’OCR sur des documents PDF et à extraire du texte à partir de PDF en C#. Nous avons également exploré comment enregistrer le texte reconnu sous forme de fichiers TXT, DOCX et JSON. Pour plus d’informations sur l’API Aspose.OCR pour .NET, consultez sa documentation. Si vous avez des questions, n’hésitez pas à nous contacter sur notre forum.

Voir aussi