Ekstrak Teks dari Dokumen MS Word di C#

Dokumen Microsoft Word adalah bahan pokok untuk membuat dan berbagi konten tekstual. Jika Anda mengembangkan aplikasi C# yang berinteraksi dengan dokumen Word, Anda mungkin perlu mengekstrak teks dari dokumen Word menggunakan C# di ASP.NET sambil memastikan bahwa format tetap terjaga. Baik Anda menganalisis teks, mengekstrak bagian tertentu, atau menggabungkan konten menjadi satu dokumen, panduan ini akan menunjukkan kepada Anda cara mengekstrak teks dari dokumen Word dengan efisien menggunakan pustaka C# terbaik untuk ekstraksi teks dokumen kata.

Daftar Isi

Pustaka C# untuk Ekstrak Teks dari Dokumen Word

Aspose.Words untuk .NET adalah pustaka kaya fitur yang mudah digunakan yang dirancang untuk bekerja dengan dokumen Word. Ini menyediakan serangkaian fungsi yang komprehensif, termasuk ekstraksi teks dokumen kata .NET, pembuatan dokumen, manipulasi, dan konversi. Aspose.Words untuk .NET adalah alat yang tak ternilai bagi pengembang yang mencari ekstraksi teks kata C# yang efisien.

Anda dapat mengunduh DLL atau menginstal pustaka langsung dari NuGet menggunakan konsol manajer paket:

PM> Install-Package Aspose.Words

Memahami Ekstraksi Teks di Dokumen Word

Dokumen MS Word terdiri dari berbagai elemen, seperti paragraf, tabel, dan gambar. Oleh karena itu, kebutuhan ekstraksi teks dapat berbeda tergantung pada skenario. Misalnya, Anda mungkin perlu mengekstrak teks dari dokumen Word yang dipindai di C# atau mengekstrak teks dari file Word menggunakan C# .NET. Setiap elemen dalam dokumen Word direpresentasikan sebagai node, yang akan Anda interaksikan selama proses ekstraksi. Mari kita jelajahi cara mengekstrak teks dari dokumen Word sambil secara efektif menangani format kata selama ekstraksi teks di C#.

Mengekstrak Teks dari Dokumen Word

Di bagian ini, kita akan mengimplementasikan ekstraktor teks C# untuk dokumen Word. Alur kerja untuk ekstraksi teks mencakup:

  1. Menentukan node yang akan disertakan dalam proses ekstraksi teks.
  2. Mengekstrak konten antara node yang ditentukan (termasuk atau mengecualikan node awal dan akhir).
  3. Mengkloning node yang diekstrak untuk membuat dokumen Word baru yang berisi konten yang diekstrak.

Mari kita buat metode bernama ExtractContent, yang akan menerima node dan parameter lain untuk ekstraksi teks. Metode ini akan mem-parsing dokumen dan mengkloning node. Berikut adalah parameter yang akan kita berikan kepada metode:

  1. StartNode dan EndNode berfungsi sebagai titik awal dan akhir untuk ekstraksi konten. Ini bisa berupa node tingkat blok (misalnya, Paragraph, Table) atau node tingkat inline (misalnya, Run, FieldStart, BookmarkStart, dll.).
    • Untuk field, berikan objek FieldStart yang sesuai.
    • Untuk bookmark, gunakan node BookmarkStart dan BookmarkEnd.
    • Untuk komentar, manfaatkan node CommentRangeStart dan CommentRangeEnd.
  2. IsInclusive menentukan apakah penanda disertakan dalam ekstraksi. Jika diatur ke false dan node yang sama atau berturut-turut diberikan, daftar kosong akan dikembalikan.

Implementasi lengkap dari metode ExtractContent, yang secara akurat mengekstrak teks dari dokumen Word yang dilindungi di C#, adalah sebagai berikut:

Selain itu, beberapa metode pembantu diperlukan oleh metode ExtractContent untuk memfasilitasi operasi ekstraksi teks:

Sekarang kita siap untuk memanfaatkan metode ini dan mengekstrak teks dari dokumen Word menggunakan C#.

Mengekstrak Teks antara Paragraf Dokumen Word

Untuk mengekstrak konten antara dua paragraf dalam dokumen Word DOCX, ikuti langkah-langkah berikut:

  1. Muat dokumen Word menggunakan kelas Document.
  2. Referensikan paragraf awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean).
  3. Panggil metode ExtractContent(startPara, endPara, true) untuk mengekstrak node ke dalam objek.
  4. Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang berisi konten yang diekstrak.
  5. Akhirnya, simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menunjukkan cara mengekstrak teks dari file Word besar dengan mengekstrak konten antara paragraf ke-7 dan ke-11:

Mengekstrak Teks antara Berbagai Jenis Node

Anda juga dapat mengekstrak konten antara berbagai jenis node. Misalnya, mari kita ekstrak konten antara paragraf dan tabel dan menyimpannya ke dalam dokumen Word baru. Ikuti langkah-langkah berikut:

  1. Muat dokumen Word menggunakan kelas Document.
  2. Referensikan node awal dan akhir menggunakan metode Document.FirstSection.Body.GetChild(NodeType, int, boolean).
  3. Panggil metode ExtractContent(startPara, endPara, true) untuk mengekstrak node ke dalam objek.
  4. Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang berisi konten yang diekstrak.
  5. Simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menggambarkan cara mengekstrak teks antara paragraf dan tabel di C#:

Mengekstrak Teks antara Paragraf Berdasarkan Gaya

Sekarang mari kita jelajahi cara mengekstrak konten antara paragraf berdasarkan gaya. Dalam contoh ini, kita akan mengekstrak konten antara “Heading 1” pertama dan “Heading 3” pertama dalam dokumen Word. Ikuti langkah-langkah berikut:

  1. Muat dokumen Word menggunakan kelas Document.
  2. Ekstrak paragraf ke dalam objek menggunakan metode pembantu ParagraphsByStyleName(Document, “Heading 1”).
  3. Ekstrak paragraf ke dalam objek lain menggunakan metode pembantu ParagraphsByStyleName(Document, “Heading 3”).
  4. Panggil metode ExtractContent(startPara, endPara, true), dengan melewatkan elemen pertama dalam kedua array paragraf sebagai parameter.
  5. Gunakan metode pembantu GenerateDocument(Document, extractedNodes) untuk membuat dokumen yang berisi konten yang diekstrak.
  6. Akhirnya, simpan dokumen yang dikembalikan menggunakan metode Document.Save(string).

Berikut adalah contoh kode yang menunjukkan cara mengekstrak konten antara paragraf berdasarkan gaya:

Baca Lebih Lanjut tentang Ekstraksi Teks

Jelajahi skenario lain dari API .NET untuk ekstraksi teks dokumen Word di artikel dokumentasi ini.

Dapatkan Pustaka Ekstraktor Teks Word Gratis

Anda dapat memperoleh lisensi sementara gratis untuk mengekstrak teks tanpa batasan evaluasi.

Kesimpulan

Aspose.Words untuk .NET adalah pustaka serbaguna yang menyederhanakan proses ekstraksi teks C# dari Word sambil mempertahankan format. Dengan fitur yang luas dan API yang ramah pengguna, Anda dapat bekerja dengan dokumen Word secara efisien dan mengotomatiskan berbagai skenario yang melibatkan penanganan karakter khusus selama ekstraksi teks kata C#. Baik Anda mengembangkan aplikasi yang perlu memproses dokumen Word atau hanya mengekstrak teks, Aspose.Words untuk .NET adalah alat yang berharga bagi pengembang.

Jelajahi fitur tambahan dari Aspose.Words untuk .NET melalui dokumentasi. Jika Anda memiliki pertanyaan, jangan ragu untuk menghubungi kami melalui forum.

Lihat Juga

Tip: Anda juga mungkin ingin memeriksa Konverter Aspose PowerPoint ke Word, yang menunjukkan proses konversi presentasi ke dokumen Word yang populer.