
Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає детальний посібник з використання Плагіна для витягування тексту Aspose.PDF для ефективного та універсального витягування тексту в C#. Незалежно від того, чи потрібно витягнути текст з усього документа, конкретних сторінок або визначених областей, плагін Aspose.PDF забезпечує високу продуктивність витягування тексту з PDF з мінімальними зусиллями.
Охоплені функції:
- Витягнути текст з цілого PDF
- Витягнути текст з конкретних сторінок
- Витягнути текст з конкретної області
- Шукати та витягувати текст за допомогою Regex
- Витягнути дані таблиці як текст
- Витягнути виділений текст
- Оптимізувати витягування тексту з низьким використанням пам’яті
Підкреслення плагіна для витягування тексту Aspose.PDF
Плагін для витягування тексту Aspose.PDF для .NET є надійним рішенням для витягування тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягування тексту з PDF. Плагін надає три режими роботи:
- Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
- Сирий режим: Витягує текст без форматування.
- Простий режим: Витягує текст і видаляє форматування та спеціальні символи.
Переваги:
- Підтримує пакетну обробку для кількох PDF.
- Пропонує налаштовувані параметри витягування для задоволення конкретних вимог.
- Пряма інтеграція з .NET-додатками забезпечує безперебійну роботу.
- Оптимізовано для швидкого, точного витягування тексту з мінімальним використанням ресурсів.
Бібліотека для витягування тексту з PDF на C#
Бібліотека Aspose.PDF для .NET є комплексним інструментом для розробників .NET, які шукають високопродуктивне витягування тексту з PDF на C#. Ви можете легко встановити її через NuGet:
PM> Install-Package Aspose.PDF
Альтернативно, ви можете завантажити DLL, щоб інтегрувати її безпосередньо у ваш проект, забезпечуючи надійне рішення для витягування тексту з PDF на C#.
Витягнути текст з цілого PDF в C#
Щоб витягнути весь текст з PDF, виконайте такі кроки:
- Завантажте PDF за допомогою класу Document.
- Створіть об’єкт TextAbsorber.
- Застосуйте абсорбер до всіх сторінок.
- Збережіть витягнутий текст у файл.
Приклад коду:
Витягнути текст з конкретних сторінок у PDF
Щоб витягнути текст з однієї сторінки:
- Завантажте PDF.
- Створіть TextAbsorber.
- Застосуйте абсорбер до бажаної сторінки.
- Збережіть витягнутий текст.
Приклад коду:
Витягнути текст з конкретних областей у PDF
Витягування тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:
- Завантажте PDF.
- Налаштуйте TextSearchOptions для визначеної області.
- Застосуйте TextAbsorber до області.
- Збережіть витягнутий текст.
Приклад коду:
Шукати та витягувати текст за допомогою Regex
Щоб витягнути текст, що відповідає певному шаблону за допомогою регулярних виразів:
- Завантажте PDF.
- Визначте шаблон regex.
- Застосуйте шаблон за допомогою TextAbsorber.
- Витягніть відповідні фрагменти тексту.
Приклад коду:
Витягнути дані таблиці як текст у C#
Щоб витягнути вміст таблиці:
- Завантажте PDF.
- Використовуйте TableAbsorber для навігації через структури таблиці.
- Витягніть текст по клітинках.
Приклад коду:
Витягнути виділений текст у PDF
Щоб витягнути виділений текст:
- Переберіть анотації.
- Фільтруйте TextMarkupAnnotation.
- Отримайте та збережіть виділені фрагменти.
Приклад коду:
Оптимізувати витягування тексту з низьким використанням пам’яті
i) Використання Reset() та FreeMemory():
- Викликайте
absorber.Reset()
після обробки кожної сторінки. - Вивільніть пам’ять, зайняту сторінками, використовуючи
page.FreeMemory()
.
ii) Використання MemorySaving режиму:
Встановіть TextExtractionOptions.TextFormattingMode
, щоб оптимізувати використання пам’яті під час витягування тексту з PDF.
Приклад коду:
Безкоштовна бібліотека для витягування тексту з PDF на C#
Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET і розблокуйте його повний потенціал для ефективного витягування тексту з PDF на C#.
Висновок
Плагін для витягування тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягування тексту. Від цілих документів до конкретних сторінок або областей, він спрощує процес з точністю та швидкістю, що робить його однією з найкращих бібліотек для витягування тексту з PDF на C#. Спробуйте його сьогодні, щоб спростити ваші робочі процеси витягування тексту з PDF.