Scanned PDF to Word OCR C#

スキャンしたPDFファイルは、画像で構成されていることが多く、テキストが選択できず、編集できません。さまざまなシナリオで、スキャンしたPDFをWord文書に変換する必要があるかもしれません。この記事では、C#を使用してスキャンしたPDFファイルをDOCXまたはDOC形式のWord文書にプログラム的に変換する手順を説明します。

目次

1. スキャンしたPDFをWord DOCXに変換するためのC# APIのインストール

スキャンしたPDFファイルを効果的に扱うために、Aspose.OCR for .NET APIを使用して光学文字認識(OCR)を活用できます。テキストを認識した後、Aspose.Words for .NET APIを使用してWord文書を作成できます。これらのAPIは、New ReleasesからDLLファイルをダウンロードするか、以下のNuGetインストールコマンドを使用してインストールできます。

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

2. スキャンしたPDFをWord文書にプログラム的に変換する

スキャンしたPDFファイルをWord文書に変換するには、OCRを使用してテキストを認識する必要があります。このプロセスは、スキャンしたPDFを編集可能なテキストに変換し、その後DOCまたはDOCX形式のWord文書にフォーマットできます。C# .NETでスキャンしたPDFをDOCに変換するための手順は以下の通りです:

  1. AsposeOcrクラスのインスタンスを初期化します。
  2. DocumentRecognitionSettingsクラスを使用してPDFから画像を認識します。
  3. 認識されたテキストを格納するために、StringBuilderオブジェクトを作成します。
  4. Documentクラスを使用してWord文書を初期化します。
  5. 必要なフォントと段落の書式を指定します。
  6. 出力Word文書をDOCXまたはDOC形式で保存します。

以下は、C#を使用してスキャンしたPDFファイルをプログラム的にWord文書に変換する方法を示すコードスニペットです:

3. 無料評価ライセンスを取得する

APIの機能を最大限にテストするには、無料の一時ライセンスをリクエストしてください。

4. 結論

この記事では、C#を使用してスキャンしたPDFファイルをDOCXまたはDOC形式のWord文書にプログラム的に変換する方法を学びました。また、ドキュメントを訪れることで、さまざまなOCR関連機能を探索できます。質問がある場合は、フォーラムでお気軽にお問い合わせください。

5. 追加リソース

ヒント: PowerPointプレゼンテーションをWord文書に変換する必要がある場合は、AsposeのプレゼンテーションをWord文書に変換コンバータの使用を検討してください。

Asposeプラグインを利用することで、スキャンしたファイルを効果的に管理し、わずか**$99**で.NETアプリケーションを強化できます。PDFからWordへの変換のための最高のC#ライブラリを使用すると、高品質なPDFからWordへの変換を実現し、ワークフローをスムーズに進めることができます。画像ベースのPDFをWordに変換したい場合でも、効率的なPDFからWordへの変換ツールC# .NETを探している場合でも、Asposeはシームレスな統合と機能のために必要なツールを提供します。

このガイドは、スキャンした文書をWordに変換するC#に関心のある方々にとって包括的なリソースとして機能し、.NET OCRライブラリを使用したPDFからWordへの変換のための実用的なC#コードを提供します。