Extract Text from PDF C#

PDFファイルからテキストを抽出することは、文書処理タスクにおいて一般的な要件です。この記事では、C#で効率的かつ多用途なテキスト抽出を行うためのAspose.PDFのテキスト抽出プラグインの詳細なガイドを提供します。ドキュメント全体、特定のページ、または定義された領域からテキストを抽出する必要がある場合でも、Aspose.PDFのプラグインは最小限の労力で高性能なPDFテキスト抽出を実現します。


対応する機能:


Aspose.PDFのテキスト抽出プラグインの強調

Aspose.PDFのテキスト抽出プラグイン for .NETは、PDF文書からテキストを抽出するための信頼性の高いソリューションです。これは、.NETアプリケーションで作業する開発者向けに特別に設計されており、.NET Frameworkおよび.NET CoreのPDFテキスト抽出をサポートしています。このプラグインは、3つの操作モードを提供します:

  1. ピュアモード: 元のフォーマットと構造を保持しながらテキストを抽出します。
  2. 生モード: フォーマットなしでテキストを抽出します。
  3. プレインモード: テキストを抽出し、フォーマットや特殊文字を削除します。

利点:

  • 複数のPDFに対するバッチ処理をサポート。
  • 特定の要件に応じたカスタマイズ可能な抽出設定を提供。
  • .NETアプリケーションとの直接統合により、シームレスなワークフローを実現。
  • 最小限のリソース使用で高速かつ正確なテキスト抽出に最適化されています。

C# PDF テキスト抽出ライブラリ

Aspose.PDF for .NETライブラリは、高性能なC# PDFテキスト抽出を求める.NET開発者向けの包括的なツールです。NuGetを介して簡単にインストールできます:

PM> Install-Package Aspose.PDF

または、DLLをダウンロードして、プロジェクトに直接統合することもでき、信頼性の高いC# PDFテキスト抽出ソリューションを提供します。


C#でPDF全体からテキストを抽出

PDFからすべてのテキストを抽出するには、次の手順に従います:

  1. Documentクラスを使用してPDFをロードします。
  2. TextAbsorberオブジェクトを作成します。
  3. 各ページにアブソーバーを適用します。
  4. 抽出したテキストをファイルに保存します。

サンプルコード:


PDFの特定のページからテキストを抽出

単一のページからテキストを抽出するには:

  1. PDFをロードします。
  2. TextAbsorberを作成します。
  3. 希望のページにアブソーバーを適用します。
  4. 抽出したテキストを保存します。

サンプルコード:


PDFの特定の領域からテキストを抽出

ページの特定の領域からテキストを抽出するには、矩形座標を定義する必要があります。手順は次のとおりです:

  1. PDFをロードします。
  2. 定義された領域のためにTextSearchOptionsを設定します。
  3. 領域にTextAbsorberを適用します。
  4. 抽出したテキストを保存します。

サンプルコード:


正規表現を使用してテキストを検索および抽出

特定のパターンに一致するテキストを正規表現を使用して抽出するには:

  1. PDFをロードします。
  2. regexパターンを定義します。
  3. TextAbsorberを使用してパターンを適用します。
  4. 一致するテキストフラグメントを抽出します。

サンプルコード:


C#でテーブルデータをテキストとして抽出

テーブルコンテンツを抽出するには:

  1. PDFをロードします。
  2. TableAbsorberを使用してテーブル構造をナビゲートします。
  3. セルごとにテキストを抽出します。

サンプルコード:


PDFのハイライトされたテキストを抽出

ハイライトされたテキストを抽出するには:

  1. 注釈を反復処理します。
  2. TextMarkupAnnotationをフィルタリングします。
  3. ハイライトされたフラグメントを取得して保存します。

サンプルコード:


低メモリ使用量でのテキスト抽出の最適化

i) **Reset()FreeMemory()**を使用する:

  1. 各ページ処理後にabsorber.Reset()を呼び出します。
  2. page.FreeMemory()を使用してページが保持するメモリを解放します。

ii) _MemorySaving_モードを使用する:

TextExtractionOptions.TextFormattingModeを設定して、PDFテキスト抽出中のメモリ使用量を最適化します。

サンプルコード:


無料のC# PDFテキスト抽出ライブラリ

Aspose.PDF for .NETへの無制限のアクセスを得るために無料の一時ライセンスを取得し、効率的なC# PDFテキスト抽出のためのその全機能を解放してください。


結論

Aspose.PDFのテキスト抽出プラグイン for .NETは、信頼性の高いテキスト抽出タスクのための多用途で効率的なソリューションを提供します。全体の文書から特定のページや領域まで、精度と速度でプロセスを簡素化し、利用可能な最高のC# PDFテキスト抽出ライブラリの1つとなっています。今日、PDFテキスト抽出のワークフローを簡素化するために試してみてください。


関連記事: