OCR PDF و استخراج متن از PDF در C#

سندهای PDF بخشی جدایی‌ناپذیر از بسیاری از فرآیندهای تجاری هستند و اغلب نیاز به دسترسی برنامه‌نویسی به محتوای اسکن شده خود دارند. استخراج متن از فایل‌های PDF اسکن شده می‌تواند پیچیده باشد و استفاده از ابزارهای مؤثر ضروری است. در این آموزش، ما به بررسی نحوه OCR سندهای PDF و استخراج متن از PDF در C# با استفاده از Aspose.OCR برای .NET API می‌پردازیم، که یک کتابخانه پیشرو برای استخراج متن از PDF در C# است و برای ارزیابی رایگان در دسترس است.

آنچه خواهید آموخت

در این مقاله، ما به بررسی موضوعات زیر خواهیم پرداخت:

  1. مروری بر Aspose.OCR برای .NET API
  2. مراحل OCR PDF و استخراج متن
  3. نحوه انجام OCR بر روی PDF و ذخیره متن
  4. تبدیل OCR PDF به Word
  5. تبدیل OCR PDF به JSON

مروری بر Aspose.OCR برای .NET API

ما از Aspose.OCR برای .NET API استفاده خواهیم کرد، که یک راه‌حل قوی OCR PDF برای .NET Core است. این API به‌طور خاص برای شناسایی متن از تصاویر اسکن شده، عکس‌های گوشی‌های هوشمند و اسکرین‌شات‌ها طراحی شده است و نتایج را در فرمت‌های مختلف سند بازمی‌گرداند. این API نه تنها تصاویر را به متن تبدیل می‌کند بلکه PDFهای قابل جستجو از اسکن‌ها ایجاد کرده و هرگونه غلط املایی در متن شناسایی شده را اصلاح می‌کند و آن را به یکی از سریع‌ترین راه‌حل‌های OCR PDF در C# با قیمت $99 تبدیل می‌کند.

این API شامل کلاس AsposeOcr است که چندین روش برای عملیات OCR ارائه می‌دهد. به‌ویژه، متد RecognizePdf(string, DocumentRecognitionSettings) برای استخراج متن از یک سند PDF مشخص ضروری است. کلاس DocumentRecognitionSettings به شما این امکان را می‌دهد که فرآیند شناسایی را سفارشی کنید، در حالی که کلاس RecognitionResult نتایج شناسایی را در خود جای می‌دهد.

شما می‌توانید DLL این API را دانلود کنید یا آن را از طریق NuGet نصب کنید:

PM> Install-Package Aspose.OCR

مراحل OCR PDF و استخراج متن در C#

برای انجام OCR بر روی اسناد PDF و استخراج متن شناسایی شده، مراحل زیر را دنبال کنید:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
  3. زبان مورد نظر برای OCR را مشخص کنید.
  4. با فراخوانی متد RecognizePdf()، RecognitionResult را به‌دست آورید و مسیر تصویر و شی DocumentRecognitionSettings را به آن پاس دهید.
  5. از طریق لیست RecognitionResult حلقه بزنید تا متن شناسایی شده را نمایش دهید.

در اینجا یک مثال برای نشان دادن نحوه OCR سندهای PDF و استخراج متن شناسایی شده در C# آورده شده است:

OCR PDF و استخراج متن از PDF در C#

OCR PDF و استخراج متن از PDF در C#

نحوه انجام OCR بر روی PDF و ذخیره متن در C#

برای انجام OCR بر روی اسناد PDF و ذخیره متن شناسایی شده، مراحل زیر را دنبال کنید:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را مقداردهی کنید.
  3. زبان مورد نظر برای OCR را مشخص کنید.
  4. متد RecognizePdf() را فراخوانی کنید تا RecognitionResult را به‌دست آورید.
  5. متن را با استفاده از متد SaveMultipageDocument() ذخیره کنید، که نیاز به مسیر فایل خروجی، SaveFormat و شی RecognitionResult دارد.

در اینجا یک مثال برای نشان دادن نحوه OCR سندهای PDF و ذخیره متن شناسایی شده در C# آورده شده است:

انجام OCR بر روی PDF و ذخیره متن در C#

انجام OCR بر روی PDF و ذخیره متن در C#

تبدیل OCR PDF به Word در C#

برای تبدیل اسناد PDF اسکن شده به Word، مراحل مشابهی را که قبلاً ذکر شد دنبال کنید، اما در مرحله نهایی SaveFormat.Docx را مشخص کنید.

در اینجا یک مثال برای نشان دادن نحوه OCR PDF و ذخیره متن شناسایی شده به عنوان یک سند Word در C# آورده شده است:

OCR PDF و تبدیل PDF اسکن شده به Word در C#

OCR PDF و تبدیل PDF اسکن شده به Word در C#

تبدیل OCR PDF به JSON در C#

برای ذخیره متن شناسایی شده از اسناد PDF در یک فایل JSON، مراحل قبلی را دنبال کنید و تنها تغییر این است که SaveFormat.Json را در مرحله نهایی مشخص کنید.

در اینجا یک مثال برای نشان دادن نحوه OCR PDF و ذخیره متن شناسایی شده به عنوان یک فایل JSON در C# آورده شده است:

دریافت مجوز ارزیابی رایگان

شما می‌توانید یک مجوز موقت رایگان دریافت کنید تا API Aspose.OCR برای .NET را بدون هیچ محدودیتی ارزیابی کنید.

نتیجه‌گیری

در این آموزش، یاد گرفتیم که چگونه OCR را بر روی اسناد PDF انجام دهیم و متن را از PDF در C# استخراج کنیم. همچنین بررسی کردیم که چگونه متن شناسایی شده را به عنوان یک فایل TXT، DOCX و JSON ذخیره کنیم. برای اطلاعات بیشتر در مورد API Aspose.OCR برای .NET، به مستندات آن مراجعه کنید. اگر سوالی دارید، می‌توانید با ما در انجمن تماس بگیرید.

همچنین ببینید