Scanned PDF to Word OCR C#

Відскановані PDF файли часто складаються з зображень, що робить текст не вибираємим і не редагованим. У різних ситуаціях вам може знадобитися перетворити відскановані PDF на документи Word. Ця стаття проведе вас через етапи перетворення відсканованих PDF-файлів у документи Word у форматі DOCX або DOC програмно за допомогою C#.

Зміст

1. Встановлення C# API для перетворення відсканованих PDF у Word DOCX

Щоб ефективно працювати з відсканованими PDF-файлами, ви можете використовувати оптичне розпізнавання символів (OCR) за допомогою API Aspose.OCR для .NET. Після розпізнавання тексту ви можете створити документ Word, використовуючи API Aspose.Words для .NET. Ви можете встановити ці API, завантаживши DLL файли з Нових випусків або використовуючи наступні команди установки NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. Програмне перетворення відсканованого PDF у документ Word

Щоб перетворити відскановані PDF-файли у документи Word, ви повинні розпізнати текст за допомогою OCR. Цей процес перетворює відсканований PDF у редагований текст, який потім можна форматувати у документ Word у форматі DOC або DOCX. Дотримуйтесь цих етапів, щоб досягти перетворення відсканованого PDF у DOC у C# .NET:

  1. Ініціалізуйте екземпляр класу AsposeOcr.
  2. Використовуйте клас DocumentRecognitionSettings для розпізнавання зображень з PDF.
  3. Створіть об’єкт StringBuilder для зберігання розпізнаного тексту.
  4. Ініціалізуйте документ Word, використовуючи клас Document.
  5. Вкажіть необхідне форматування шрифтів і абзаців.
  6. Збережіть вихідний документ Word у форматі DOCX або DOC.

Ось фрагмент коду, що демонструє, як програмно перетворити відсканований PDF-файл у документ Word за допомогою C#:

3. Отримання безкоштовної ліцензії для оцінки

Ви можете протестувати API на їх повну потужність, запросивши безкоштовну тимчасову ліцензію.

4. Висновок

У цій статті ви дізналися, як програмно перетворити відсканований PDF-файл у документ Word у форматі DOCX або DOC за допомогою C#. Крім того, ви можете дослідити різні інші функції, пов’язані з OCR, відвідавши документацію. Якщо у вас є запитання, не соромтеся звертатися до нас на форумі.

5. Додаткові ресурси

Порада: Якщо вам коли-небудь потрібно буде перетворити презентацію PowerPoint у документ Word, розгляньте можливість використання конвертера Aspose Presentation to Word Document.

Використовуючи плагін Aspose, ви можете ефективно керувати відсканованими файлами та покращити свої .NET додатки всього за 99 доларів. З найкращою бібліотекою C# для перетворення PDF у Word ви можете досягти високоякісного перетворення PDF у Word та без зусиль оптимізувати свій робочий процес. Незалежно від того, чи ви хочете перетворити PDF на основі зображень у Word, чи шукаєте ефективний конвертер PDF у Word C# .NET, Aspose надає інструменти, які вам потрібні для безшовної інтеграції та функціональності.

Цей посібник слугує всебічним ресурсом для тих, хто цікавиться перетворенням відсканованих документів у Word C# та надає практичний код C# для перетворення PDF у Word за допомогою .NET OCR бібліотеки для PDF у Word.