OCR PDF e Extrair Texto de PDF em C#

Documentos PDF são integrais para muitos processos empresariais, frequentemente necessitando de acesso programático ao seu conteúdo digitalizado. Extrair texto de arquivos PDF digitalizados pode ser complexo, tornando ferramentas eficazes essenciais. Neste tutorial, exploraremos como fazer OCR em documentos PDF e extrair texto de PDF em C# usando a poderosa Aspose.OCR para .NET API, uma biblioteca líder em extração de texto de PDF em C# disponível para avaliação gratuita.

O Que Você Vai Aprender

Neste artigo, abordaremos os seguintes tópicos:

  1. Visão Geral da Aspose.OCR para .NET API
  2. Passos para Fazer OCR em PDF e Extrair Texto
  3. Como Realizar OCR em PDF e Salvar Texto
  4. Convertendo OCR PDF para Word
  5. Convertendo OCR PDF para JSON

Visão Geral da Aspose.OCR para .NET API

Utilizaremos a Aspose.OCR para .NET API, uma robusta solução de OCR para PDF em .NET Core. Esta API é projetada especificamente para reconhecer texto de imagens digitalizadas, fotos de smartphones e capturas de tela, retornando resultados em vários formatos de documento. Ela não apenas converte imagens em texto, mas também cria PDFs pesquisáveis a partir de digitalizações e corrige quaisquer erros de ortografia no texto reconhecido, tornando-se uma das soluções de OCR para PDF em C# mais rápidas disponíveis por apenas $99.

A API possui a classe AsposeOcr, que oferece múltiplos métodos para operações de OCR. Notavelmente, o método RecognizePdf(string, DocumentRecognitionSettings) é essencial para extrair texto de um documento PDF especificado. A classe DocumentRecognitionSettings permite personalizar o processo de reconhecimento, enquanto a classe RecognitionResult encapsula os resultados do reconhecimento.

Você pode baixar a DLL da API ou instalá-la via NuGet:

PM> Install-Package Aspose.OCR

Passos para Fazer OCR em PDF e Extrair Texto em C#

Para realizar OCR em documentos PDF e extrair o texto reconhecido, siga estes passos:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Especifique o idioma para OCR.
  4. Obtenha o RecognitionResult invocando o método RecognizePdf(), passando o caminho da imagem e o objeto DocumentRecognitionSettings.
  5. Percorra a lista RecognitionResult para exibir o texto identificado.

Aqui está um exemplo ilustrando como fazer OCR em documentos PDF e extrair texto reconhecido em C#:

OCR PDF e Extrair Texto de PDF em C#

OCR PDF e Extrair Texto de PDF em C#

Como Realizar OCR em PDF e Salvar Texto em C#

Para realizar OCR em documentos PDF e salvar o texto reconhecido, siga estes passos:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Especifique o idioma para OCR.
  4. Chame o método RecognizePdf() para obter o RecognitionResult.
  5. Salve o texto usando o método SaveMultipageDocument(), que requer o caminho do arquivo de saída, o SaveFormat e o objeto RecognitionResult.

Aqui está um exemplo demonstrando como fazer OCR em documentos PDF e salvar o texto reconhecido em C#:

Realizar OCR em PDF e Salvar Texto em C#

Realizar OCR em PDF e Salvar Texto em C#

Convertendo OCR PDF para Word em C#

Para converter documentos PDF digitalizados para Word, siga os mesmos passos descritos anteriormente, mas especifique SaveFormat.Docx na etapa final.

Aqui está um exemplo ilustrando como fazer OCR em PDF e salvar o texto reconhecido como um documento Word em C#:

OCR PDF e Converter PDF Digitalizado para Word em C#

OCR PDF e Converter PDF Digitalizado para Word em C#

Convertendo OCR PDF para JSON em C#

Para salvar texto reconhecido de documentos PDF em um arquivo JSON, siga os passos anteriores com a única alteração sendo especificar SaveFormat.Json na etapa final.

Aqui está um exemplo demonstrando como fazer OCR em PDF e salvar o texto reconhecido como um arquivo JSON em C#:

Obtenha uma Licença de Avaliação Gratuita

Você pode obter uma licença temporária gratuita para avaliar a Aspose.OCR para .NET API sem quaisquer limitações.

Conclusão

Neste tutorial, aprendemos como realizar OCR em documentos PDF e extrair texto de PDF em C#. Também exploramos como salvar o texto reconhecido como um arquivo TXT, DOCX e JSON. Para mais informações sobre a Aspose.OCR para .NET API, confira sua documentação. Se você tiver alguma dúvida, sinta-se à vontade para entrar em contato conosco em nosso fórum.

Veja Também