Въз основа на Nokogiri HTML парсера за Ruby, дезинфекцирайте е система бял списък на основата за премахване на HTML от един блок от текст.
В "белия списък" техника ще позволи на разработчиците да настройка списък с HTML тагове, които дезинфекцирайте ще използват като отправна точка за това, което тя счита за "приемлив" HTML.
Всеки друг HTML тагове не са в списъка, ще бъдат отстранени от разбор текста.
Дезинфекцирайте може да работи с които отговарят на стандартите или с деформиран HTML.
Библиотеката може да открива и филтрира HTML тагове, атрибути и протоколи.
Почистената текст винаги ще бъде изведена като валиден HTML или XHTML.
За да помогне на разработчиците да започнат работа на техните проекти, дезинфекцирайте идва с няколко готови конфигурации включени. Проверете файла README за повече информация
Какво ново в тази версия:.
- добави две нови настройки CSS довереник,: at_rules_with_properties и:. at_rules_with_styles
- Добавена пълна поддръжка на CSS правила @ Страницата в спокойна довереник, включително подкрепа за всички правила страница марж кутия.
- добавя следното CSS най-правила за спокойна довереник.
- Добавена цял куп CSS свойства на спокойна довереник. Вижте пълния списък тук.
- подобрения Small представяне.
- Обновен Crass да 1.0.2 да вземете една корекция, която засегна разбор на правилата CSS @ Страницата.
Какво ново във версия 3.1.2:
- Fixed: #document и #fragment провали на замразени струни, и биха могли неволно променят размразени струни, ако те използва кодиране, различни от UTF-8, или ако те съдържат знаци, които не са позволени в HTML.
Какво ново във версия 3.0.2:
- Updated Nokogumbo да 1.1.12, защото 1.1. 11 мълчаливо върна промяната, която се опитваше да вземете в последната версия.
Какво ново във версия 3.0.0:
- Добавена напреднали CSS санитарна помощ, използвайки Крас, който е в пълно съответствие с CSS Синтаксис Модул Level 3 разбор спец. Съдържанието на белия списък & # x3c; стил & # x3e; елементи и стил атрибути в HTML ще бъдат санирани като CSS, или можете да използвате дезинфекцирайте :: CSS клас ръчно дезинфекцирайте CSS стилове или свойства.
- Добавена: allow_doctype обстановка. Когато истински, добре оформени определения DOCTYPE да се допускат в документа. Когато фалшива (по подразбиране), определения DOCTYPE ще бъдат премахнати от документи. Дефиниции DOCTYPE никога не са позволени във фрагменти, независимо от тази настройка.
- добавени следните елементи в спокойна довереник, в допълнение към различни атрибути:. Статия, като изключим, орган, данните, Разделение, Footer, глава, глава, HTML, основна, НСА, секция, педя, стил, заглавие
- The: whitespace_elements довереник сега е Hash, и ви позволява да укажете текста, който трябва да се включат преди и след тези елементи, когато те са отстранени. Array базирани довереник стойност стар стил все още се поддържа за обратна съвместимост.
- Неподходящи Unicode символа сега са отстранени от HTML, преди да е анализиран.
- Fixed:
- Non-Tag скоби в вход като & quot; 1 & # x3e; 2 и 2 & # x3c; 1 & quot; сега биват анализирани и избягал правилно в съответствие със спецификацията HTML5, превръщайки & quot; 1 & GT; 2 и 2 & LT; 1 & quot;.
- Братя и сестри добавени след текущия възел време пакетът сега са пресечени. В предишните версии те са били просто пропуска.
- Nokogiri е блъснал и инструктиран да спре добавяне редове след някои елементи, защото ако хората искат нови редове там щяха да ги сложи там, по дяволите.
Какво ново във версия 2.0.6:
- Version 2.0.5 невнимание включена някаква работа-в Прогрес промени, които не е трябвало да дойдат в управляващото бранша.
Какво ново във версия 1.2.1:
- Добавена: настройка remove_contents довереник. Ако е вярно, дезинфекцирайте ще премахне съдържанието на всички не-белия списък елементи в допълнение към самите елементи. Ако е зададено на масив от имена на елементи, дезинфекцирайте ще премахне съдържанието на само тези елементи (когато филтрира), и се оставя съдържанието на други филтрирани елементи. [Благодарение на Rafael Souza за опцията за Array]
- Добавена: output_encoding довереник настройка, за да се даде възможност на кодовата таблица, за HTML изход ще бъде уточнено допълнително. По подразбиране е "UTF-8".
- хеша The среда премина в трансформатори сега включва: node_name елемент, съдържащ малки букви името на текущия HTML възел (напр & quot; Разделения & quot;) .
- Връщайки нещо различно от Hash или нулева от трансформатор сега ще повиши значимо изключение дезинфекцирайте :: Error отколкото непредвидена NameError.
<силни> Изисквания
- Ruby 1.9.2 или по-висока
- Nokogiri 1.4.4 или по-висока
Коментари не е намерена