Scanned PDF to Word OCR C#

Naskenované PDF soubory často obsahují obrázky, což znemožňuje výběr a úpravu textu. V různých scénářích můžete potřebovat převést naskenované PDF na Word dokumenty. Tento článek vás provede kroky, jak programově převést naskenované PDF soubory na Word dokumenty ve formátu DOCX nebo DOC pomocí C#.

Obsah

1. Instalace C# API pro převod naskenovaného PDF na Word DOCX

Pro efektivní práci s naskenovanými PDF soubory můžete využít optické rozpoznávání znaků (OCR) pomocí API Aspose.OCR pro .NET. Po rozpoznání textu můžete vytvořit Word dokument pomocí API Aspose.Words pro .NET. Tyto API můžete nainstalovat stažením DLL souborů z Nových vydání nebo pomocí následujících příkazů pro instalaci NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. Programový převod naskenovaného PDF na Word dokument

Pro převod naskenovaných PDF souborů na Word dokumenty musíte rozpoznat text pomocí OCR. Tento proces přetváří naskenované PDF na editovatelný text, který může být následně formátován do Word dokumentu ve formátu DOC nebo DOCX. Postupujte podle těchto kroků pro převod naskenovaného PDF na DOC v C# .NET:

  1. Inicializujte instanci třídy AsposeOcr.
  2. Použijte třídu DocumentRecognitionSettings k rozpoznání obrázků z PDF.
  3. Vytvořte objekt StringBuilder pro uložení rozpoznaného textu.
  4. Inicializujte Word dokument pomocí třídy Document.
  5. Určete potřebné formátování písma a odstavců.
  6. Uložte výstupní Word dokument ve formátu DOCX nebo DOC.

Zde je kódový úryvek, který demonstruje, jak programově převést naskenovaný PDF soubor na Word dokument pomocí C#:

3. Získání bezplatné zkušební licence

Můžete testovat API na plnou kapacitu tím, že požádáte o bezplatnou dočasnou licenci.

4. Závěr

V tomto článku jste se naučili, jak programově převést naskenovaný PDF soubor na Word dokument ve formátu DOCX nebo DOC pomocí C#. Dále můžete prozkoumat různé další funkce související s OCR návštěvou dokumentace. Pokud máte jakékoli dotazy, neváhejte nás kontaktovat na fóru.

5. Další zdroje

Tip: Pokud někdy potřebujete převést prezentaci PowerPoint na Word dokument, zvažte použití Aspose Převodník prezentace na Word dokument.

Využitím pluginu Aspose můžete efektivně spravovat naskenované soubory a vylepšit své .NET aplikace za pouhých 99 $. S nejlepším C# knihovním pro převod PDF na Word můžete dosáhnout vysokokvalitního převodu PDF na Word a bez námahy zjednodušit svůj pracovní postup. Ať už se snažíte převést PDF založené na obrázcích na Word nebo hledáte efektivní převodník PDF na Word C# .NET, Aspose poskytuje nástroje, které potřebujete pro bezproblémovou integraci a funkčnost.

Tento průvodce slouží jako komplexní zdroj pro ty, kteří mají zájem o převod naskenovaných dokumentů na Word C# a poskytuje praktický C# kód pro převod PDF na Word pomocí .NET OCR knihovny pro PDF na Word.