
PDF 文档在许多业务流程中至关重要,通常需要以编程方式访问其扫描内容。从扫描的 PDF 文件中提取文本可能很复杂,因此有效的工具至关重要。在本教程中,我们将探讨 如何在 C# 中进行 OCR PDF 文档和提取文本,使用强大的 Aspose.OCR for .NET API,这是一个可免费评估的领先 C# PDF 文本提取库。
您将学习到的内容
在本文中,我们将涵盖以下主题:
- Aspose.OCR for .NET API 概述
- 在 C# 中进行 OCR PDF 和提取文本的步骤
- 如何在 PDF 上执行 OCR 并保存文本
- 将 OCR PDF 转换为 Word
- 将 OCR PDF 转换为 JSON
Aspose.OCR for .NET API 概述
我们将利用 Aspose.OCR for .NET API,这是一个强大的 .NET Core PDF OCR 解决方案。该 API 专门设计用于从扫描的图像、智能手机照片和屏幕截图中识别文本,并以各种文档格式返回结果。它不仅将图像转换为文本,还可以从扫描中创建可搜索的 PDF,并纠正识别文本中的拼写错误,使其成为仅需 $99 的最快 C# PDF OCR 解决方案之一。
该 API 具有 AsposeOcr 类,提供多种 OCR 操作的方法。特别是, RecognizePdf(string, DocumentRecognitionSettings) 方法对于从指定的 PDF 文档中提取文本至关重要。 DocumentRecognitionSettings 类允许您自定义识别过程,而 RecognitionResult 类封装识别结果。
您可以 下载 API 的 DLL 或通过 NuGet 安装:
PM> Install-Package Aspose.OCR
在 C# 中进行 OCR PDF 和提取文本的步骤
要对 PDF 文档执行 OCR 并提取识别的文本,请按照以下步骤操作:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 指定 OCR 的语言。
- 通过调用 RecognizePdf() 方法获取 RecognitionResult,传递图像路径和 DocumentRecognitionSettings 对象。
- 遍历 RecognitionResult 列表以显示识别的文本。
以下是一个示例,说明 如何在 C# 中进行 OCR PDF 文档并提取识别的文本:

OCR PDF 和从 PDF 中提取文本的 C#
如何在 C# 中对 PDF 执行 OCR 并保存文本
要对 PDF 文档执行 OCR 并保存识别的文本,请按照以下步骤操作:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 指定 OCR 的语言。
- 调用 RecognizePdf() 方法以获取 RecognitionResult。
- 使用 SaveMultipageDocument() 方法保存文本,该方法需要输出文件路径、SaveFormat 和 RecognitionResult 对象。
以下是一个示例,演示 如何在 C# 中进行 OCR PDF 文档并保存识别的文本:

在 PDF 上执行 OCR 并保存文本的 C#
在 C# 中将 OCR PDF 转换为 Word
要将扫描的 PDF 文档转换为 Word,请按照之前概述的相同步骤进行操作,但在最后一步中指定 SaveFormat.Docx。
以下是一个示例,说明 如何在 C# 中进行 OCR PDF 并将识别的文本保存为 Word 文档:

OCR PDF 和将扫描的 PDF 转换为 Word 的 C#
在 C# 中将 OCR PDF 转换为 JSON
要将 PDF 文档中识别的文本保存为 JSON 文件,请按照之前的步骤进行操作,唯一的变化是在最后一步中指定 SaveFormat.Json。
以下是一个示例,演示 如何在 C# 中进行 OCR PDF 并将识别的文本保存为 JSON 文件:
获取免费评估许可证
您可以 获取免费的临时许可证,以在没有任何限制的情况下评估 Aspose.OCR for .NET API。
结论
在本教程中,我们学习了如何在 PDF 文档上执行 OCR 并提取 C# 中的文本。我们还探讨了如何将识别的文本保存为 TXT、DOCX 和 JSON 文件。有关 Aspose.OCR for .NET API 的更多信息,请查看其 文档。如果您有任何问题,请随时在我们的 论坛 上与我们联系。