PDFMiner работи като първо се вземе съдържанието на PDF файл и да го превръщат в един по-ковък формат като HTML.
От там, текст и данни се извлича и се анализира, и въз основа на предварително определени правила, разделени и представени на ползвателя или изпратени до други по-мощни инструменти за анализ на данни.
Ако анализ на текст, не е това, което възнамерявате да правите, можете лесно да конфигурирате PDFMiner просто да извлечете или просто да конвертирате PDF данни, както добре.
Неговите функции могат да работят отделно един от друг и позволяват по-широк използване на радиочестотния спектър, благодарение на него
<силни> Характеристики :.
- 100% Python код, не C или C ++
- разбор на PDF файлове
- Анализ на PDF файлове
- Конвертиране на PDF файлове в други формати
- TOC аспиратор
- Вземи само маркира съдържание
- Подкрепа за голям брой текст PDF функции
- Подкрепа за голям брой видове шрифтове във вътрешността на PDF файлове
- Basic криптиране (RC4) подкрепа
Какво ново в тази версия:
- PDFDocument.initialize () метод се отстранява и вече не е необходима , Паролата се дава като аргумент на PDFDocument конструктор.
Какво ново във версия 20110515:.
- промени API
- LTPolygon клас се преименува като LTCurve.
Какво ново във версия 20110227:.
- корекции на грешки и подобрения на анализирането
Какво ново във версия 20101226:.
- Няколко поправки и дребни подобрения
Какво ново във версия 20101017:.
- Няколко поправки и незначително подобрение
Какво ново във версия 20100424:.
- Фиксирани бъгове и малки подобрения на екстракция TOC
<силни> Изисквания
- Python 2.4 до 3
<силни> Ограничения :.
- PDFMiner може да бъде 20 пъти по-бавен от C / C ++ - базиран софтуер
Коментари не е намерена