วิธีการดึงข้อความจาก PDF ใน C# | ปลั๊กอิน Text Extractor ของ Aspose.PDF | File Format Processing Plugins for C# .NET Core

การดึงข้อความจากไฟล์ PDF เป็นความต้องการที่พบบ่อยในงานประมวลผลเอกสาร บทความนี้ให้แนวทางเชิงลึกเกี่ยวกับการใช้ Aspose.PDF’s Text Extractor Plugin สำหรับการดึงข้อความใน C# ที่มีประสิทธิภาพและหลากหลาย ไม่ว่าคุณจะต้องการดึงข้อความจากเอกสารทั้งหมด, หน้าสpecific, หรือพื้นที่ที่กำหนด, ปลั๊กอินของ Aspose.PDF ช่วยให้การดึงข้อความจาก PDF มีประสิทธิภาพสูงด้วยความพยายามน้อยที่สุด

ฟีเจอร์ที่ครอบคลุม:

การเน้นย้ำปลั๊กอิน Text Extractor ของ Aspose.PDF

Aspose.PDF’s Text Extractor Plugin สำหรับ .NET เป็นโซลูชันที่เชื่อถือได้สำหรับการดึงข้อความจากเอกสาร PDF มันถูกออกแบบมาโดยเฉพาะสำหรับนักพัฒนาที่ทำงานกับแอปพลิเคชัน .NET รองรับการดึงข้อความจาก PDF ทั้ง .NET Framework และ .NET Core ปลั๊กอินนี้มีโหมดการทำงานสามโหมด:

โหมดบริสุทธิ์: ดึงข้อความพร้อมรักษาฟอร์แมตและโครงสร้างเดิม
โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต
โหมดธรรมดา: ดึงข้อความและลบฟอร์แมตและอักขระพิเศษ

ประโยชน์:

รองรับการประมวลผลแบตช์สำหรับหลาย ๆ PDF
มีการตั้งค่าการดึงข้อมูลที่ปรับแต่งได้เพื่อตอบสนองความต้องการเฉพาะ
การรวมเข้ากับแอปพลิเคชัน .NET โดยตรงทำให้การทำงานเป็นไปอย่างราบรื่น
ปรับแต่งสำหรับการดึงข้อความที่รวดเร็วและแม่นยำด้วยการใช้ทรัพยากรน้อยที่สุด

ไลบรารีการดึงข้อความ PDF ด้วย C#

ไลบรารี Aspose.PDF สำหรับ .NET เป็นเครื่องมือที่ครอบคลุมสำหรับนักพัฒนาที่มองหาการดึงข้อความ PDF C# ที่มีประสิทธิภาพสูง คุณสามารถติดตั้งได้ง่าย ๆ ผ่าน NuGet:

PM> Install-Package Aspose.PDF

หรือคุณสามารถ ดาวน์โหลด DLL เพื่อนำไปใช้ในโปรเจคของคุณโดยตรง ซึ่งเป็นโซลูชันการดึงข้อความ PDF C# ที่เชื่อถือได้

ดึงข้อความจาก PDF ทั้งหมดใน C#

เพื่อดึงข้อความทั้งหมดจาก PDF ให้ทำตามขั้นตอนเหล่านี้:

โหลด PDF โดยใช้คลาส Document
สร้างอ็อบเจ็กต์ TextAbsorber
ใช้ตัวดูดกับทุกหน้า
บันทึกข้อความที่ดึงออกมาไปยังไฟล์

ตัวอย่างโค้ด:

ดึงข้อความจากหน้าที่เฉพาะใน PDF

เพื่อดึงข้อความจากหน้าหนึ่ง:

โหลด PDF
สร้าง TextAbsorber
ใช้ตัวดูดกับหน้าที่ต้องการ
บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:

ดึงข้อความจากพื้นที่เฉพาะใน PDF

การดึงข้อความจากพื้นที่เฉพาะของหน้าเกี่ยวข้องกับการกำหนดพิกัดสี่เหลี่ยม ขั้นตอนรวมถึง:

โหลด PDF
กำหนด TextSearchOptions สำหรับพื้นที่ที่กำหนด
ใช้ TextAbsorber กับพื้นที่
บันทึกข้อความที่ดึงออกมา

ตัวอย่างโค้ด:

ค้นหาและดึงข้อความโดยใช้ Regex

เพื่อดึงข้อความที่ตรงกับรูปแบบเฉพาะโดยใช้การแสดงออกปกติ:

โหลด PDF
กำหนดรูปแบบ regex
ใช้รูปแบบโดยใช้ TextAbsorber
ดึงส่วนข้อความที่ตรงกัน

ตัวอย่างโค้ด:

ดึงข้อมูลตารางเป็นข้อความใน C#

เพื่อดึงเนื้อหาตาราง:

โหลด PDF
ใช้ TableAbsorber เพื่อทำการนำทางผ่านโครงสร้างตาราง
ดึงข้อความทีละเซลล์

ตัวอย่างโค้ด:

ดึงข้อความที่เน้นใน PDF

เพื่อดึงข้อความที่เน้น:

ทำซ้ำผ่านการอนุญาต
กรอง TextMarkupAnnotation
ดึงและบันทึกส่วนที่เน้น

ตัวอย่างโค้ด:

ปรับแต่งการดึงข้อความด้วยการใช้หน่วยความจำต่ำ

i) การใช้ Reset() และ FreeMemory():

เรียก absorber.Reset() หลังจากประมวลผลแต่ละหน้า
ปล่อยหน่วยความจำที่ใช้โดยหน้าโดยใช้ page.FreeMemory()

ii) การใช้โหมด MemorySaving:

ตั้งค่า TextExtractionOptions.TextFormattingMode เพื่อปรับแต่งการใช้หน่วยความจำระหว่างการดึงข้อความ PDF

ตัวอย่างโค้ด:

ไลบรารีการดึงข้อความ PDF C# ฟรี

รับ ใบอนุญาตชั่วคราวฟรี สำหรับการเข้าถึง Aspose.PDF สำหรับ .NET อย่างไม่มีข้อจำกัดและปลดล็อกศักยภาพเต็มรูปแบบสำหรับการดึงข้อความ PDF C# ที่มีประสิทธิภาพ

บทสรุป

ปลั๊กอิน Text Extractor ของ Aspose.PDF สำหรับ .NET เสนอวิธีการที่หลากหลายและมีประสิทธิภาพสำหรับงานการดึงข้อความที่เชื่อถือได้ จากเอกสารทั้งหมดไปยังหน้าหรือพื้นที่เฉพาะ มันทำให้กระบวนการเป็นไปอย่างแม่นยำและรวดเร็ว ทำให้มันเป็นหนึ่งในไลบรารีการดึงข้อความ PDF C# ที่ดีที่สุดที่มีอยู่ ลองใช้วันนี้เพื่อทำให้การทำงานของคุณในการดึงข้อความ PDF ง่ายขึ้น

ฟีเจอร์ที่ครอบคลุม:#

การเน้นย้ำปลั๊กอิน Text Extractor ของ Aspose.PDF#

ประโยชน์:#

ไลบรารีการดึงข้อความ PDF ด้วย C##

ดึงข้อความจาก PDF ทั้งหมดใน C##

ตัวอย่างโค้ด:#

ดึงข้อความจากหน้าที่เฉพาะใน PDF#

ตัวอย่างโค้ด:#

ดึงข้อความจากพื้นที่เฉพาะใน PDF#

ตัวอย่างโค้ด:#

ค้นหาและดึงข้อความโดยใช้ Regex#

ตัวอย่างโค้ด:#

ดึงข้อมูลตารางเป็นข้อความใน C##

ตัวอย่างโค้ด:#

ดึงข้อความที่เน้นใน PDF#

ตัวอย่างโค้ด:#

ปรับแต่งการดึงข้อความด้วยการใช้หน่วยความจำต่ำ#

i) การใช้ Reset() และ FreeMemory():#

ii) การใช้โหมด MemorySaving:#

ตัวอย่างโค้ด:#

ไลบรารีการดึงข้อความ PDF C# ฟรี#

บทสรุป#

บทความที่เกี่ยวข้อง:#

ฟีเจอร์ที่ครอบคลุม:

การเน้นย้ำปลั๊กอิน Text Extractor ของ Aspose.PDF

ประโยชน์:

ไลบรารีการดึงข้อความ PDF ด้วย C#

ดึงข้อความจาก PDF ทั้งหมดใน C#

ตัวอย่างโค้ด:

ดึงข้อความจากหน้าที่เฉพาะใน PDF

ตัวอย่างโค้ด:

ดึงข้อความจากพื้นที่เฉพาะใน PDF

ตัวอย่างโค้ด:

ค้นหาและดึงข้อความโดยใช้ Regex

ตัวอย่างโค้ด:

ดึงข้อมูลตารางเป็นข้อความใน C#

ตัวอย่างโค้ด:

ดึงข้อความที่เน้นใน PDF

ตัวอย่างโค้ด:

ปรับแต่งการดึงข้อความด้วยการใช้หน่วยความจำต่ำ

i) การใช้ Reset() และ FreeMemory():

ii) การใช้โหมด MemorySaving:

ตัวอย่างโค้ด:

ไลบรารีการดึงข้อความ PDF C# ฟรี

บทสรุป

บทความที่เกี่ยวข้อง: