Extract Text from PDF C#

Витягування тексту з PDF-файлів є поширеною вимогою в завданнях обробки документів. Ця стаття надає детальний посібник з використання Плагіна для витягування тексту Aspose.PDF для ефективного та універсального витягування тексту в C#. Незалежно від того, чи потрібно витягнути текст з усього документа, конкретних сторінок або визначених областей, плагін Aspose.PDF забезпечує високу продуктивність витягування тексту з PDF з мінімальними зусиллями.


Охоплені функції:


Підкреслення плагіна для витягування тексту Aspose.PDF

Плагін для витягування тексту Aspose.PDF для .NET є надійним рішенням для витягування тексту з PDF-документів. Він спеціально розроблений для розробників, які працюють з .NET-додатками, підтримуючи як .NET Framework, так і .NET Core для витягування тексту з PDF. Плагін надає три режими роботи:

  1. Чистий режим: Витягує текст, зберігаючи оригінальне форматування та структуру.
  2. Сирий режим: Витягує текст без форматування.
  3. Простий режим: Витягує текст і видаляє форматування та спеціальні символи.

Переваги:

  • Підтримує пакетну обробку для кількох PDF.
  • Пропонує налаштовувані параметри витягування для задоволення конкретних вимог.
  • Пряма інтеграція з .NET-додатками забезпечує безперебійну роботу.
  • Оптимізовано для швидкого, точного витягування тексту з мінімальним використанням ресурсів.

Бібліотека для витягування тексту з PDF на C#

Бібліотека Aspose.PDF для .NET є комплексним інструментом для розробників .NET, які шукають високопродуктивне витягування тексту з PDF на C#. Ви можете легко встановити її через NuGet:

PM> Install-Package Aspose.PDF

Альтернативно, ви можете завантажити DLL, щоб інтегрувати її безпосередньо у ваш проект, забезпечуючи надійне рішення для витягування тексту з PDF на C#.


Витягнути текст з цілого PDF в C#

Щоб витягнути весь текст з PDF, виконайте такі кроки:

  1. Завантажте PDF за допомогою класу Document.
  2. Створіть об’єкт TextAbsorber.
  3. Застосуйте абсорбер до всіх сторінок.
  4. Збережіть витягнутий текст у файл.

Приклад коду:


Витягнути текст з конкретних сторінок у PDF

Щоб витягнути текст з однієї сторінки:

  1. Завантажте PDF.
  2. Створіть TextAbsorber.
  3. Застосуйте абсорбер до бажаної сторінки.
  4. Збережіть витягнутий текст.

Приклад коду:


Витягнути текст з конкретних областей у PDF

Витягування тексту з конкретних областей сторінки передбачає визначення прямокутних координат. Кроки включають:

  1. Завантажте PDF.
  2. Налаштуйте TextSearchOptions для визначеної області.
  3. Застосуйте TextAbsorber до області.
  4. Збережіть витягнутий текст.

Приклад коду:


Шукати та витягувати текст за допомогою Regex

Щоб витягнути текст, що відповідає певному шаблону за допомогою регулярних виразів:

  1. Завантажте PDF.
  2. Визначте шаблон regex.
  3. Застосуйте шаблон за допомогою TextAbsorber.
  4. Витягніть відповідні фрагменти тексту.

Приклад коду:


Витягнути дані таблиці як текст у C#

Щоб витягнути вміст таблиці:

  1. Завантажте PDF.
  2. Використовуйте TableAbsorber для навігації через структури таблиці.
  3. Витягніть текст по клітинках.

Приклад коду:


Витягнути виділений текст у PDF

Щоб витягнути виділений текст:

  1. Переберіть анотації.
  2. Фільтруйте TextMarkupAnnotation.
  3. Отримайте та збережіть виділені фрагменти.

Приклад коду:


Оптимізувати витягування тексту з низьким використанням пам’яті

i) Використання Reset() та FreeMemory():

  1. Викликайте absorber.Reset() після обробки кожної сторінки.
  2. Вивільніть пам’ять, зайняту сторінками, використовуючи page.FreeMemory().

ii) Використання MemorySaving режиму:

Встановіть TextExtractionOptions.TextFormattingMode, щоб оптимізувати використання пам’яті під час витягування тексту з PDF.

Приклад коду:


Безкоштовна бібліотека для витягування тексту з PDF на C#

Отримайте безкоштовну тимчасову ліцензію для необмеженого доступу до Aspose.PDF для .NET і розблокуйте його повний потенціал для ефективного витягування тексту з PDF на C#.


Висновок

Плагін для витягування тексту Aspose.PDF для .NET пропонує універсальне та ефективне рішення для надійних завдань витягування тексту. Від цілих документів до конкретних сторінок або областей, він спрощує процес з точністю та швидкістю, що робить його однією з найкращих бібліотек для витягування тексту з PDF на C#. Спробуйте його сьогодні, щоб спростити ваші робочі процеси витягування тексту з PDF.


Супутні статті: