Сканированный PDF в Word OCR C#

Отсканированные PDF файлы часто состоят из изображений, что делает текст невыбираемым и не редактируемым. В различных сценариях вам может понадобиться преобразовать отсканированный PDF в документы Word. Эта статья проведет вас через шаги для преобразования отсканированных PDF файлов в документы Word в формате DOCX или DOC программно с использованием C#.

Содержание

1. Установка C# API для преобразования отсканированного PDF в Word DOCX

Чтобы эффективно работать с отсканированными PDF файлами, вы можете использовать оптическое распознавание символов (OCR) с помощью API Aspose.OCR для .NET. После распознавания текста вы можете создать документ Word, используя API Aspose.Words для .NET. Вы можете установить эти API, скачав DLL файлы с Новых релизов или используя следующие команды установки NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. Программное преобразование отсканированного PDF в документ Word

Чтобы преобразовать отсканированные PDF файлы в документы Word, необходимо распознать текст с помощью OCR. Этот процесс преобразует отсканированный PDF в редактируемый текст, который затем может быть отформатирован в документ Word в формате DOC или DOCX. Следуйте этим шагам, чтобы достичь преобразования отсканированного PDF в DOC на C# .NET:

  1. Инициализируйте экземпляр класса AsposeOcr.
  2. Используйте класс DocumentRecognitionSettings для распознавания изображений из PDF.
  3. Создайте объект StringBuilder для хранения распознанного текста.
  4. Инициализируйте документ Word с помощью класса Document.
  5. Укажите необходимые настройки шрифта и форматирования абзацев.
  6. Сохраните выходной документ Word в формате DOCX или DOC.

Вот фрагмент кода, демонстрирующий, как программно преобразовать отсканированный PDF файл в документ Word с использованием C#:

3. Получение бесплатной лицензии на оценку

Вы можете протестировать API на полную мощность, запросив бесплатную временную лицензию.

4. Заключение

В этой статье вы узнали, как программно преобразовать отсканированный PDF файл в документ Word в формате DOCX или DOC с использованием C#. Кроме того, вы можете изучить различные другие функции, связанные с OCR, посетив документацию. Если у вас есть вопросы, не стесняйтесь обращаться к нам на форуме.

5. Дополнительные ресурсы

Совет: Если вам когда-либо потребуется преобразовать презентацию PowerPoint в документ Word, подумайте о том, чтобы использовать конвертер Aspose Презентация в документ Word.

Используя плагин Aspose, вы можете эффективно управлять отсканированными файлами и улучшать свои .NET приложения всего за $99. С лучшей библиотекой C# для преобразования PDF в Word вы можете достичь высококачественного преобразования PDF в Word и без труда оптимизировать свой рабочий процесс. Независимо от того, хотите ли вы преобразовать PDF на основе изображений в Word или ищете эффективный конвертер PDF в Word C# .NET, Aspose предоставляет вам инструменты, необходимые для бесшовной интеграции и функциональности.

Этот гид служит всеобъемлющим ресурсом для тех, кто интересуется преобразованием отсканированных документов в Word C# и предоставляет практический код C# для преобразования PDF в Word с использованием .NET OCR библиотеки для PDF в Word.