OCR PDF dan Ekstrak Teks dari PDF di C#

Dokumen PDF merupakan bagian integral dari banyak proses bisnis, sering kali memerlukan akses programatik ke konten yang dipindai. Mengekstrak teks dari file PDF yang dipindai dapat menjadi kompleks, sehingga alat yang efektif sangat penting. Dalam tutorial ini, kita akan menjelajahi cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF di C# menggunakan Aspose.OCR untuk .NET API, sebuah perpustakaan ekstraksi teks PDF C# terkemuka yang tersedia untuk evaluasi gratis.

Apa yang Akan Anda Pelajari

Dalam artikel ini, kita akan membahas topik berikut:

  1. Ikhtisar Aspose.OCR untuk .NET API
  2. Langkah-langkah untuk OCR PDF dan Ekstrak Teks
  3. Cara Melakukan OCR pada PDF dan Menyimpan Teks
  4. Mengonversi OCR PDF ke Word
  5. Mengonversi OCR PDF ke JSON

Ikhtisar Aspose.OCR untuk .NET API

Kita akan memanfaatkan Aspose.OCR untuk .NET API, sebuah solusi PDF OCR .NET Core yang kuat. API ini dirancang khusus untuk mengenali teks dari gambar yang dipindai, foto smartphone, dan tangkapan layar, mengembalikan hasil dalam berbagai format dokumen. Ini tidak hanya mengonversi gambar menjadi teks tetapi juga membuat PDF yang dapat dicari dari pemindaian dan memperbaiki kesalahan ejaan dalam teks yang dikenali, menjadikannya salah satu solusi C# PDF OCR tercepat yang tersedia hanya dengan $99.

API ini memiliki kelas AsposeOcr yang menawarkan beberapa metode untuk operasi OCR. Secara khusus, metode RecognizePdf(string, DocumentRecognitionSettings) sangat penting untuk mengekstrak teks dari dokumen PDF tertentu. Kelas DocumentRecognitionSettings memungkinkan Anda untuk menyesuaikan proses pengenalan, sementara kelas RecognitionResult mengenkapsulasi hasil pengenalan.

Anda dapat mengunduh DLL dari API atau menginstalnya melalui NuGet:

PM> Install-Package Aspose.OCR

Langkah-langkah untuk OCR PDF dan Ekstrak Teks di C#

Untuk melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali, ikuti langkah-langkah berikut:

  1. Buat instance dari kelas AsposeOcr.
  2. Inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Tentukan bahasa untuk OCR.
  4. Dapatkan RecognitionResult dengan memanggil metode RecognizePdf(), melewatkan jalur gambar dan objek DocumentRecognitionSettings.
  5. Loop melalui daftar RecognitionResult untuk menampilkan teks yang diidentifikasi.

Berikut adalah contoh yang menggambarkan cara melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali di C#:

OCR PDF dan Ekstrak Teks dari PDF di C#

OCR PDF dan Ekstrak Teks dari PDF di C#

Cara Melakukan OCR pada PDF dan Menyimpan Teks di C#

Untuk melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali, ikuti langkah-langkah berikut:

  1. Buat instance dari kelas AsposeOcr.
  2. Inisialisasi objek dari kelas DocumentRecognitionSettings.
  3. Tentukan bahasa untuk OCR.
  4. Panggil metode RecognizePdf() untuk mendapatkan RecognitionResult.
  5. Simpan teks menggunakan metode SaveMultipageDocument(), yang memerlukan jalur file output, SaveFormat, dan objek RecognitionResult.

Berikut adalah contoh yang menunjukkan cara melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali di C#:

Melakukan OCR pada PDF dan Menyimpan Teks di C#

Melakukan OCR pada PDF dan Menyimpan Teks di C#

Mengonversi OCR PDF ke Word di C#

Untuk mengonversi dokumen PDF yang dipindai ke Word, ikuti langkah yang sama seperti yang dijelaskan sebelumnya, tetapi tentukan SaveFormat.Docx pada langkah terakhir.

Berikut adalah contoh yang menggambarkan cara melakukan OCR pada PDF dan menyimpan teks yang dikenali sebagai dokumen Word di C#:

OCR PDF dan Mengonversi PDF yang Dipindai ke Word di C#

OCR PDF dan Mengonversi PDF yang Dipindai ke Word di C#

Mengonversi OCR PDF ke JSON di C#

Untuk menyimpan teks yang dikenali dari dokumen PDF dalam file JSON, ikuti langkah-langkah sebelumnya dengan satu-satunya perubahan adalah menentukan SaveFormat.Json pada langkah terakhir.

Berikut adalah contoh yang menunjukkan cara melakukan OCR pada PDF dan menyimpan teks yang dikenali sebagai file JSON di C#:

Dapatkan Lisensi Evaluasi Gratis

Anda dapat mendapatkan lisensi sementara gratis untuk mengevaluasi Aspose.OCR untuk .NET API tanpa batasan.

Kesimpulan

Dalam tutorial ini, kita belajar cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF di C#. Kita juga menjelajahi cara menyimpan teks yang dikenali sebagai file TXT, DOCX, dan JSON. Untuk informasi lebih lanjut tentang Aspose.OCR untuk .NET API, lihat dokumentasinya. Jika Anda memiliki pertanyaan, jangan ragu untuk menghubungi kami di forum kami.

Lihat Juga