Красива Soup е Python HTML / XML парсер предназначена за бързо проекти обрат като параван-остъргване. Три функции правят изключително мощен:
Красива супа няма да се задуши, ако го даде лош маркиране. Тя получава разбор дърво, което прави приблизително толкова смисъл като оригиналния документ. Това обикновено е достатъчно добър, за да се съберат необходимите данни, и да избяга.
Красива Soup предвижда няколко прости методи и Pythonic идиоми за навигация, търсене и модифициране на синтактична дърво: набор от инструменти за дисекция документ и извличане, което ви трябва. Не е нужно да създадете потребителски анализатор за всяко приложение.
Красива Soup автоматично преобразува входящите документи на Unicode и изходящи документи на UTF-8. Не е нужно да се мисли за кодировки, освен ако документът не се уточнява за кодиране и Beautiful Soup не може автоматично да открие едната. Тогава просто трябва да се уточни за отгатване.
Красива Soup анализира всичко, което му се даде, и го прави дърво прекосява неща за за вас. Можете да кажете, че "Намери всички връзки", или "Виж всички връзки на клас externalLink", или "Виж всички връзки, чиито URL адреси мач" foo.com ", или" Виж таблицата позиция, че има удебелен шрифт, а след това даде мен този текст. "
Ценна информация, която някога е била заключена в лошо проектирани сайтове сега е на една ръка разстояние. . Проекти, които биха отнели часа отнеме само минута с красива супа
<силни> Изисквания :
- Python
Коментари не е намерена