Scanned PDF to Word OCR C#

Les fichiers PDF numérisés se composent souvent d’images, ce qui rend le texte non sélectionnable et non modifiable. Dans divers scénarios, vous pourriez avoir besoin de convertir des fichiers PDF numérisés en documents Word. Cet article vous guidera à travers les étapes pour convertir des fichiers PDF numérisés en documents Word au format DOCX ou DOC de manière programmatique en utilisant C#.

Table des matières

1. Installation de l’API C# pour la conversion de PDF numérisés en DOCX

Pour travailler efficacement avec des fichiers PDF numérisés, vous pouvez tirer parti de la reconnaissance optique de caractères (OCR) en utilisant l’API Aspose.OCR pour .NET. Après avoir reconnu le texte, vous pouvez créer un document Word en utilisant l’API Aspose.Words pour .NET. Vous pouvez installer ces API en téléchargeant les fichiers DLL depuis les Nouvelles versions ou en utilisant les commandes d’installation NuGet suivantes :

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. Conversion programmatique de PDF numérisés en document Word

Pour convertir des fichiers PDF numérisés en documents Word, vous devez reconnaître le texte à l’aide de l’OCR. Ce processus transforme le PDF numérisé en texte modifiable, qui peut ensuite être formaté en un document Word au format DOC ou DOCX. Suivez ces étapes pour réaliser une conversion de PDF numérisé en DOC en C# .NET :

  1. Initialisez une instance de la classe AsposeOcr.
  2. Utilisez la classe DocumentRecognitionSettings pour reconnaître les images du PDF.
  3. Créez un objet StringBuilder pour stocker le texte reconnu.
  4. Initialisez un document Word en utilisant la classe Document.
  5. Spécifiez la mise en forme de police et de paragraphe nécessaire.
  6. Enregistrez le document Word de sortie au format DOCX ou DOC.

Voici un extrait de code démontrant comment convertir un fichier PDF numérisé en document Word de manière programmatique en utilisant C# :

3. Obtenir une licence d’évaluation gratuite

Vous pouvez tester les API dans toute leur capacité en demandant une licence temporaire gratuite.

4. Conclusion

Dans cet article, vous avez appris à convertir un fichier PDF numérisé en document Word au format DOCX ou DOC de manière programmatique en utilisant C#. De plus, vous pouvez explorer diverses autres fonctionnalités liées à l’OCR en visitant la documentation. Si vous avez des questions, n’hésitez pas à nous contacter sur le forum.

5. Ressources supplémentaires

Astuce : Si vous devez un jour convertir une présentation PowerPoint en document Word, envisagez d’utiliser le convertisseur Aspose Presentation to Word Document.

En utilisant le plugin Aspose, vous pouvez gérer efficacement les fichiers numérisés et améliorer vos applications .NET pour seulement 99 $. Avec la meilleure bibliothèque C# pour la conversion de PDF en Word, vous pouvez réaliser une conversion de PDF en Word de haute qualité et rationaliser votre flux de travail sans effort. Que vous cherchiez à convertir un PDF basé sur une image en Word ou à trouver un convertisseur PDF en Word efficace C# .NET, Aspose fournit les outils dont vous avez besoin pour une intégration et une fonctionnalité sans faille.

Ce guide sert de ressource complète pour ceux qui s’intéressent à la conversion de documents numérisés en Word C# et fournit un code C# pratique pour la conversion de PDF en Word en utilisant la bibliothèque .NET OCR pour PDF en Word.