Extract Text from PDF C#

การดึงข้อความจากไฟล์ PDF เป็นความต้องการที่พบบ่อยในงานประมวลผลเอกสาร บทความนี้ให้แนวทางเชิงลึกเกี่ยวกับการใช้ Aspose.PDF’s Text Extractor Plugin สำหรับการดึงข้อความใน C# ที่มีประสิทธิภาพและหลากหลาย ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด, หน้าสpecific, หรือพื้นที่ที่กำหนด, ปลั๊กอินของ Aspose.PDF ช่วยให้การดึงข้อความจาก PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด


ฟีเจอร์ที่ครอบคลุม:


การเน้นย้ำปลั๊กอิน Text Extractor ของ Aspose.PDF

Aspose.PDF’s Text Extractor Plugin สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการดึงข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับการดึงข้อความจาก PDF ทั้ง .NET Framework และ .NET Core ปลั๊กอินนี้มีโหมดการทำงานสามโหมด:

  1. โหมดบริสุทธิ์: ดึงข้อความพร้อมรักษาฟอร์แมตและโครงสร้างเดิม
  2. โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต
  3. โหมดธรรมดา: ดึงข้อความและลบฟอร์แมตและอักขระพิเศษ

ประโยชน์:

  • รองรับการประมวลผลแบตช์สำหรับหลาย ๆ PDF
  • มีการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้เพื่อตอบสนองความต้องการเฉพาะ
  • การรวมเข้ากับแอปพลิเคชัน .NET โดยตรงทำให้การทำงานเป็นไปอย่างราบรื่น
  • ปรับแต่งสำหรับการดึงข้อความที่รวดเร็วและแม่นยำด้วยการใช้ทรัพยากรน้อยที่สุด

ไลบรารีการดึงข้อความ PDF ด้วย C#

ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนาที่มองหาการดึงข้อความ PDF C# ที่มีประสิทธิภาพสูง คุณสามารถติดตั้งได้ง่าย ๆ ผ่าน NuGet:

PM> Install-Package Aspose.PDF

หรือคุณสามารถ ดาวน์โหลด DLL เพื่อนำไปใช้ในโปรเจคของคุณโดยตรง ซึ่งเป็นโซลูชันการดึงข้อความ PDF C# ที่เชื่อถือได้


ดึงข้อความจาก PDF ทั้งหมดใน C#

เพื่อดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:

  1. โหลด PDF โดยใช้คลาส Document
  2. สร้างอ็อบเจ็กต์ TextAbsorber
  3. ใช้ตัวดูดกับทุกหน้า
  4. บันทึกข้อความที่ดึงออกมาไปยังไฟล์

ตัวอย่างโค้ด:


ดึงข้อความจากหน้าที่เฉพาะใน PDF

เพื่อดึงข้อความจากหน้าหนึ่ง:

  1. โหลด PDF
  2. สร้าง TextAbsorber
  3. ใช้ตัวดูดกับหน้าที่ต้องการ
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:


ดึงข้อความจากพื้นที่เฉพาะใน PDF

การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ขั้นตอนรวมถึง:

  1. โหลด PDF
  2. กำหนด TextSearchOptions สำหรับพื้นที่ที่กำหนด
  3. ใช้ TextAbsorber กับพื้นที่
  4. บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:


ค้นหาและดึงข้อความโดยใช้ Regex

เพื่อดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ:

  1. โหลด PDF
  2. กำหนดรูปแบบ regex
  3. ใช้รูปแบบโดยใช้ TextAbsorber
  4. ดึงส่วนข้อความที่ตรงกัน

ตัวอย่างโค้ด:


ดึงข้อมูลตารางเป็นข้อความใน C#

เพื่อดึงเนื้อหาตาราง:

  1. โหลด PDF
  2. ใช้ TableAbsorber เพื่อทำการนำทางผ่านโครงสร้างตาราง
  3. ดึงข้อความทีละเซลล์

ตัวอย่างโค้ด:


ดึงข้อความที่เน้นใน PDF

เพื่อดึงข้อความที่เน้น:

  1. ทำซ้ำผ่านการอนุญาต
  2. กรอง TextMarkupAnnotation
  3. ดึงและบันทึกส่วนที่เน้น

ตัวอย่างโค้ด:


ปรับแต่งการดึงข้อความด้วยการใช้หน่วยความจำต่ำ

i) การใช้ Reset() และ FreeMemory():

  1. เรียก absorber.Reset() หลังจากประมวลผลแต่ละหน้า
  2. ปล่อยหน่วยความจำที่ใช้โดยหน้าโดยใช้ page.FreeMemory()

ii) การใช้โหมด MemorySaving:

ตั้งค่า TextExtractionOptions.TextFormattingMode เพื่อปรับแต่งการใช้หน่วยความจำระหว่างการดึงข้อความ PDF

ตัวอย่างโค้ด:


ไลบรารีการดึงข้อความ PDF C# ฟรี

รับ ใบอนุญาตชั่วคราวฟรี สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET อย่างไม่มีข้อจำกัดและปลดล็อกศักยภาพเต็มรูปแบบสำหรับการดึงข้อความ PDF C# ที่มีประสิทธิภาพ


บทสรุป

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการเป็นไปอย่างแม่นยำและรวดเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการดึงข้อความ PDF C# ที่ดีที่สุดที่มีอยู่ ลองใช้วันนี้เพื่อทำให้การทำงานของคุณในการดึงข้อความ PDF ง่ายขึ้น


บทความที่เกี่ยวข้อง: