Як витягти текст з PDF у C# | Плагін для витягування тексту Aspose.PDF | File Format Processing Plugins for C# .NET Core

Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає детальний посібник з використання Плагіна для витягування тексту Aspose.PDF для ефективного та універсального витягування тексту в C#. Незалежно від того, чи потрібно витягнути текст з усього документа, конкретних сторінок або визначених областей, плагін Aspose.PDF забезпечує високу продуктивність витягування тексту з PDF з мінімальними зусиллями.

Охоплені функції:

Підкреслення плагіна для витягування тексту Aspose.PDF

Плагін для витягування тексту Aspose.PDF для .NET є надійним рішенням для витягування тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягування тексту з PDF. Плагін надає три режими роботи:

Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
Сирий режим: Витягує текст без форматування.
Простий режим: Витягує текст і видаляє форматування та спеціальні символи.

Переваги:

Підтримує пакетну обробку для кількох PDF.
Пропонує налаштовувані параметри витягування для задоволення конкретних вимог.
Пряма інтеграція з .NET-додатками забезпечує безперебійну роботу.
Оптимізовано для швидкого, точного витягування тексту з мінімальним використанням ресурсів.

Бібліотека для витягування тексту з PDF на C#

Бібліотека Aspose.PDF для .NET є комплексним інструментом для розробників .NET, які шукають високопродуктивне витягування тексту з PDF на C#. Ви можете легко встановити її через NuGet:

PM> Install-Package Aspose.PDF

Альтернативно, ви можете завантажити DLL, щоб інтегрувати її безпосередньо у ваш проект, забезпечуючи надійне рішення для витягування тексту з PDF на C#.

Витягнути текст з цілого PDF в C#

Щоб витягнути весь текст з PDF, виконайте такі кроки:

Завантажте PDF за допомогою класу Document.
Створіть об’єкт TextAbsorber.
Застосуйте абсорбер до всіх сторінок.
Збережіть витягнутий текст у файл.

Приклад коду:

Витягнути текст з конкретних сторінок у PDF

Щоб витягнути текст з однієї сторінки:

Завантажте PDF.
Створіть TextAbsorber.
Застосуйте абсорбер до бажаної сторінки.
Збережіть витягнутий текст.

Приклад коду:

Витягнути текст з конкретних областей у PDF

Витягування тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:

Завантажте PDF.
Налаштуйте TextSearchOptions для визначеної області.
Застосуйте TextAbsorber до області.
Збережіть витягнутий текст.

Приклад коду:

Шукати та витягувати текст за допомогою Regex

Щоб витягнути текст, що відповідає певному шаблону за допомогою регулярних виразів:

Завантажте PDF.
Визначте шаблон regex.
Застосуйте шаблон за допомогою TextAbsorber.
Витягніть відповідні фрагменти тексту.

Приклад коду:

Витягнути дані таблиці як текст у C#

Щоб витягнути вміст таблиці:

Завантажте PDF.
Використовуйте TableAbsorber для навігації через структури таблиці.
Витягніть текст по клітинках.

Приклад коду:

Витягнути виділений текст у PDF

Щоб витягнути виділений текст:

Переберіть анотації.
Фільтруйте TextMarkupAnnotation.
Отримайте та збережіть виділені фрагменти.

Приклад коду:

Оптимізувати витягування тексту з низьким використанням пам’яті

i) Використання Reset() та FreeMemory():

Викликайте absorber.Reset() після обробки кожної сторінки.
Вивільніть пам’ять, зайняту сторінками, використовуючи page.FreeMemory().

ii) Використання MemorySaving режиму:

Встановіть TextExtractionOptions.TextFormattingMode, щоб оптимізувати використання пам’яті під час витягування тексту з PDF.

Приклад коду:

Безкоштовна бібліотека для витягування тексту з PDF на C#

Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET і розблокуйте його повний потенціал для ефективного витягування тексту з PDF на C#.

Висновок

Плагін для витягування тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягування тексту. Від цілих документів до конкретних сторінок або областей, він спрощує процес з точністю та швидкістю, що робить його однією з найкращих бібліотек для витягування тексту з PDF на C#. Спробуйте його сьогодні, щоб спростити ваші робочі процеси витягування тексту з PDF.

Охоплені функції:#

Підкреслення плагіна для витягування тексту Aspose.PDF#

Переваги:#

Бібліотека для витягування тексту з PDF на C##

Витягнути текст з цілого PDF в C##

Приклад коду:#

Витягнути текст з конкретних сторінок у PDF#

Приклад коду:#

Витягнути текст з конкретних областей у PDF#

Приклад коду:#

Шукати та витягувати текст за допомогою Regex#

Приклад коду:#

Витягнути дані таблиці як текст у C##

Приклад коду:#

Витягнути виділений текст у PDF#

Приклад коду:#

Оптимізувати витягування тексту з низьким використанням пам’яті#

i) Використання Reset() та FreeMemory():#

ii) Використання MemorySaving режиму:#

Приклад коду:#

Безкоштовна бібліотека для витягування тексту з PDF на C##

Висновок#

Супутні статті:#

Охоплені функції:

Підкреслення плагіна для витягування тексту Aspose.PDF

Переваги:

Бібліотека для витягування тексту з PDF на C#

Витягнути текст з цілого PDF в C#

Приклад коду:

Витягнути текст з конкретних сторінок у PDF

Приклад коду:

Витягнути текст з конкретних областей у PDF

Приклад коду:

Шукати та витягувати текст за допомогою Regex

Приклад коду:

Витягнути дані таблиці як текст у C#

Приклад коду:

Витягнути виділений текст у PDF

Приклад коду:

Оптимізувати витягування тексту з низьким використанням пам’яті

i) Використання Reset() та FreeMemory():

ii) Використання MemorySaving режиму:

Приклад коду:

Безкоштовна бібліотека для витягування тексту з PDF на C#

Висновок

Супутні статті: