
Microsoft Word belgeleri, metin içeriği oluşturmak ve paylaşmak için vazgeçilmezdir. Word belgeleriyle etkileşimde bulunan C# uygulamaları geliştiriyorsanız, C# ile Word belgelerinden metin çıkartmanız gerekebilir; bu sırada formatlamanın korunmasını sağlamalısınız. Metni analiz etseniz, belirli bölümleri çıkartsanız veya içeriği tek bir belgede birleştirmeyi planlasanız da, bu rehber, en iyi C# kütüphanesini kullanarak Word belgelerinden metin çıkartmanın verimli yollarını gösterecektir.
İçindekiler
- Word Belgelerinden Metin Çıkartmak için C# Kütüphanesi
- Word Belgelerinde Metin Çıkartmayı Anlamak
- Bir Word Belgesinden Metin Çıkartma
Word Belgelerinden Metin Çıkartmak için C# Kütüphanesi
Aspose.Words for .NET , Word belgeleriyle çalışmak için tasarlanmış, özellik açısından zengin ve kullanımı kolay bir kütüphanedir. .NET word belge metin çıkartma, belge oluşturma, manipülasyon ve dönüştürme gibi kapsamlı bir işlevsellik seti sunar. Aspose.Words for .NET, verimli C# word metin çıkartma arayan geliştiriciler için paha biçilmez bir araçtır.
DLL’yi indirin veya NuGet üzerinden paket yöneticisi konsolunu kullanarak kütüphaneyi doğrudan yükleyin:
PM> Install-Package Aspose.Words
Word Belgelerinde Metin Çıkartmayı Anlamak
Bir MS Word belgesi, paragraflar, tablolar ve resimler gibi çeşitli öğeler içerir. Bu nedenle, metin çıkartma gereksinimleri duruma göre farklılık gösterebilir. Örneğin, C# ile taranmış bir Word belgesinden metin çıkartmanız ya da C# .NET kullanarak bir Word dosyasından metin çıkartmanız gerekebilir. Bir Word belgesindeki her öğe, çıkartma işlemi sırasında etkileşimde bulunacağınız bir düğüm olarak temsil edilir. Şimdi, Word belgelerinden metin çıkartırken C# metin çıkartma sırasında kelime formatlamasını etkili bir şekilde nasıl yöneteceğimizi keşfedelim.
Bir Word Belgesinden Metin Çıkartma
Bu bölümde, Word belgeleri için bir C# metin çıkartıcı uygulayacağız. Metin çıkartma işlemi için iş akışı şunları içerir:
- Metin çıkartma sürecine dahil edilecek düğümleri tanımlama.
- Belirtilen düğümler arasındaki içeriği çıkartma (başlangıç ve bitiş düğümlerini dahil etme veya hariç tutma).
- Çıkartılan düğümleri klonlayarak çıkarılan içeriği içeren yeni bir Word belgesi oluşturma.
ExtractContent adlı bir yöntem oluşturalım; bu yöntem düğümleri ve metin çıkartma için diğer parametreleri kabul edecektir. Bu yöntem, belgeyi ayrıştıracak ve düğümleri klonlayacaktır. Yönteme geçireceğimiz parametreler şunlardır:
- StartNode ve EndNode, içerik çıkartma için başlangıç ve bitiş noktaları olarak hizmet eder. Bunlar blok seviyesinde (örneğin, Paragraph, Table) veya satır içi seviyedeki düğümler (örneğin, Run, FieldStart, BookmarkStart vb.) olabilir.
- Alanlar için, ilgili FieldStart nesnesini geçin.
- Yer işaretleri için BookmarkStart ve BookmarkEnd düğümlerini kullanın.
- Yorumlar için CommentRangeStart ve CommentRangeEnd düğümlerini kullanın.
- IsInclusive, işaretleyicilerin çıkartmaya dahil edilip edilmediğini belirtir. False olarak ayarlanırsa ve aynı veya ardışık düğümler geçilirse, boş bir liste dönecektir.
Korumalı Word belgelerinden metin çıkartma işlemini doğru bir şekilde gerçekleştiren ExtractContent yönteminin tam uygulaması aşağıdaki gibidir:
Ayrıca, metin çıkartma işlemini kolaylaştırmak için ExtractContent yönteminin ihtiyaç duyduğu bazı yardımcı yöntemler gereklidir:
Artık bu yöntemleri kullanmaya ve C# ile Word belgelerinden metin çıkartmaya hazırız.
Bir Word Belgesinin Paragrafları Arasında Metin Çıkartma
Bir Word DOCX belgesindeki iki paragraf arasında içerik çıkartmak için şu adımları izleyin:
- Document sınıfını kullanarak Word belgesini yükleyin.
- Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) yöntemini kullanarak başlangıç ve bitiş paragraflarını referans alın.
- ExtractContent(startPara, endPara, true) yöntemini çağırarak düğümleri bir nesneye çıkartın.
- Çıkartılan içeriği içeren bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Son olarak, dönen belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte, 7. ve 11. paragraflar arasında içerik çıkartarak büyük Word dosyalarından metin çıkartmayı gösteren bir kod örneği:
Farklı Türdeki Düğümler Arasında Metin Çıkartma
Ayrıca, farklı türdeki düğümler arasında içerik çıkartabilirsiniz. Örneğin, bir paragraf ile bir tablo arasındaki içeriği çıkartalım ve bunu yeni bir Word belgesine kaydedelim. Aşağıdaki adımları izleyin:
- Document sınıfını kullanarak Word belgesini yükleyin.
- Document.FirstSection.Body.GetChild(NodeType, int, boolean) yöntemini kullanarak başlangıç ve bitiş düğümlerini referans alın.
- ExtractContent(startPara, endPara, true) yöntemini çağırarak düğümleri bir nesneye çıkartın.
- Çıkartılan içeriği içeren bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Dönen belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte, C# kullanarak bir paragraf ile bir tablo arasındaki metni çıkartmayı gösteren bir kod örneği:
Stillere Dayalı Olarak Paragraflar Arasında Metin Çıkartma
Şimdi, stillere dayalı olarak paragraflar arasında içerik çıkartmayı keşfedelim. Bu örnekte, Word belgesindeki ilk “Heading 1” ile ilk “Heading 3” arasındaki içeriği çıkartacağız. Aşağıdaki adımları izleyin:
- Document sınıfını kullanarak Word belgesini yükleyin.
- ParagraphsByStyleName(Document, “Heading 1”) yardımcı yöntemini kullanarak paragrafları bir nesneye çıkartın.
- ParagraphsByStyleName(Document, “Heading 3”) yardımcı yöntemini kullanarak paragrafları başka bir nesneye çıkartın.
- ExtractContent(startPara, endPara, true) yöntemini çağırarak her iki paragraf dizisinin ilk elemanlarını parametre olarak geçin.
- Çıkartılan içeriği içeren bir belge oluşturmak için GenerateDocument(Document, extractedNodes) yardımcı yöntemini kullanın.
- Son olarak, dönen belgeyi Document.Save(string) yöntemiyle kaydedin.
İşte, stillere dayalı olarak paragraflar arasında içerik çıkartmayı gösteren bir kod örneği:
Metin Çıkartma Hakkında Daha Fazla Bilgi
.NET API’si ile Word belge metin çıkartma ile ilgili diğer senaryoları bu doküman makalesinde keşfedin.
Ücretsiz Word Metin Çıkartıcı Kütüphanesi Alın
Metin çıkartmayı değerlendirme kısıtlamaları olmadan gerçekleştirmek için ücretsiz geçici bir lisans alabilirsiniz.
Sonuç
Aspose.Words for .NET, C# ile Word’den metin çıkartma sürecini kolaylaştıran çok yönlü bir kütüphanedir. Geniş özellikleri ve kullanıcı dostu API’si ile Word belgeleriyle verimli bir şekilde çalışabilir ve C# metin çıkartma sırasında özel karakterlerle başa çıkma gibi çeşitli senaryoları otomatikleştirebilirsiniz. Word belgelerini işlemek için uygulamalar geliştiriyorsanız veya sadece metin çıkartıyorsanız, Aspose.Words for .NET geliştiriciler için değerli bir araçtır.
Aspose.Words for .NET‘in ek özelliklerini dokümantasyon aracılığıyla keşfedin. Herhangi bir sorunuz varsa, lütfen forumumuz aracılığıyla bizimle iletişime geçin.
Ayrıca Bakınız
İpucu: Popüler sunumdan Word belgesine dönüşüm sürecini gösteren Aspose PowerPoint to Word Dönüştürücüsünü de kontrol etmek isteyebilirsiniz.