使用Aspose.OCR for .NET API在C#中进行OCR PDF并从PDF中提取文本 | File Format Processing Plugins for C# .NET Core

PDF 文档在许多业务流程中至关重要，通常需要以编程方式访问其扫描内容。从扫描的 PDF 文件中提取文本可能很复杂，因此有效的工具至关重要。在本教程中，我们将探讨 如何在 C# 中进行 OCR PDF 文档和提取文本，使用强大的 Aspose.OCR for .NET API，这是一个可免费评估的领先 C# PDF 文本提取库。

您将学习到的内容

在本文中，我们将涵盖以下主题：

Aspose.OCR for .NET API 概述

我们将利用 Aspose.OCR for .NET API，这是一个强大的 .NET Core PDF OCR 解决方案。该 API 专门设计用于从扫描的图像、智能手机照片和屏幕截图中识别文本，并以各种文档格式返回结果。它不仅将图像转换为文本，还可以从扫描中创建可搜索的 PDF，并纠正识别文本中的拼写错误，使其成为仅需 $99 的最快 C# PDF OCR 解决方案之一。

该 API 具有 AsposeOcr 类，提供多种 OCR 操作的方法。特别是， RecognizePdf(string, DocumentRecognitionSettings) 方法对于从指定的 PDF 文档中提取文本至关重要。 DocumentRecognitionSettings 类允许您自定义识别过程，而 RecognitionResult 类封装识别结果。

您可以下载 API 的 DLL 或通过 NuGet 安装：

PM> Install-Package Aspose.OCR

在 C# 中进行 OCR PDF 和提取文本的步骤

要对 PDF 文档执行 OCR 并提取识别的文本，请按照以下步骤操作：

创建 AsposeOcr 类的实例。
初始化 DocumentRecognitionSettings 类的对象。
指定 OCR 的语言。
通过调用 RecognizePdf() 方法获取 RecognitionResult，传递图像路径和 DocumentRecognitionSettings 对象。
遍历 RecognitionResult 列表以显示识别的文本。

以下是一个示例，说明 如何在 C# 中进行 OCR PDF 文档并提取识别的文本：

如何在 C# 中对 PDF 执行 OCR 并保存文本

要对 PDF 文档执行 OCR 并保存识别的文本，请按照以下步骤操作：

创建 AsposeOcr 类的实例。
初始化 DocumentRecognitionSettings 类的对象。
指定 OCR 的语言。
调用 RecognizePdf() 方法以获取 RecognitionResult。
使用 SaveMultipageDocument() 方法保存文本，该方法需要输出文件路径、SaveFormat 和 RecognitionResult 对象。

以下是一个示例，演示 如何在 C# 中进行 OCR PDF 文档并保存识别的文本：

在 C# 中将 OCR PDF 转换为 Word

要将扫描的 PDF 文档转换为 Word，请按照之前概述的相同步骤进行操作，但在最后一步中指定 SaveFormat.Docx。

以下是一个示例，说明 如何在 C# 中进行 OCR PDF 并将识别的文本保存为 Word 文档：

在 C# 中将 OCR PDF 转换为 JSON

要将 PDF 文档中识别的文本保存为 JSON 文件，请按照之前的步骤进行操作，唯一的变化是在最后一步中指定 SaveFormat.Json。

以下是一个示例，演示 如何在 C# 中进行 OCR PDF 并将识别的文本保存为 JSON 文件：

获取免费评估许可证

您可以获取免费的临时许可证，以在没有任何限制的情况下评估 Aspose.OCR for .NET API。

结论

在本教程中，我们学习了如何在 PDF 文档上执行 OCR 并提取 C# 中的文本。我们还探讨了如何将识别的文本保存为 TXT、DOCX 和 JSON 文件。有关 Aspose.OCR for .NET API 的更多信息，请查看其文档。如果您有任何问题，请随时在我们的论坛上与我们联系。

您将学习到的内容#

Aspose.OCR for .NET API 概述#

在 C# 中进行 OCR PDF 和提取文本的步骤#

如何在 C# 中对 PDF 执行 OCR 并保存文本#

在 C# 中将 OCR PDF 转换为 Word#

在 C# 中将 OCR PDF 转换为 JSON#

获取免费评估许可证#

结论#

参见#