Безплатно изтегляне Jericho HTML Parser за Web ::: HTML Инструменти скриптове

Jericho HTML Parser

Софтуер снимки:

Софтуер детайли:

Версия: 3.4

Дата на качване: 10 Dec 15

Розробник: Martin Jericho

Разрешително: Безплатно

Популярност: 12

Изтеглите

Currently nan/5
1
2
3
4
5

Rating: nan/5 (Total Votes: 0)

Тя може да редактирате от страна на сървъра и от страна на клиента тагове, докато възпроизвежда дословно всяка непризната или невалиден HTML.

Той също така осигурява високо равнище функции за манипулиране на HTML форма

<силни> Характеристики :.

Наличието на неправилно форматиран HTML не пречи разбор на останалата част от документа, което го прави идеален за използване с библиотека & quot; реалния свят & quot; HTML че дросели други парсери.
ASP, JSP, PSP, PHP и Мейсън сървърни тагове, които са изрично признати от парсера. Това означава, че нормалната HTML все още се прави разбор и правилно, дори ако има сървърни тагове вътре в тях, която е обща за пример, когато динамично създаване елемент атрибути.
Нов поток базирани разбор опция с помощта на класа StreamedSource, която позволява паметта ефективна обработка на големи файлове с помощта на итератор събитие. Това е по същество Stax алтернатива със способността да обработва HTML и не-валидиране на XML, както и няколко други функции не са налични в други стрийминг парсери.
В стандартния си вид тя не е нито едно събитие, нито дърво базирани анализатор, а по-скоро използва комбинация от просто търсене на текст, ефективно признаване маркер и позиция таг кеш. Текстът на целия документ източник първото зареждане в паметта, а след това само съответните сегменти избраните за съответните герои на всяка операция за търсене.
В сравнение с дърво базирани анализатор като DOM, изискванията за памет и ресурси могат да бъдат далеч по-добре, ако само малки части от документа, трябва да се прави разбор или модифицирани. Неправилно или неправилно форматиран HTML могат лесно да бъдат пренебрегнати, за разлика от дърво, базирани парсери, които трябва да идентифицират всеки възел в документа от горе до долу.
Спрямо събитие базирани анализатор като SAX, интерфейсът е на много по-високо ниво и по-интуитивен и представяне дърво на йерархията на документ елемент е лесно да създава, ако е необходимо.
The започват и завършват позиции в документа източник на всички анализирани сегменти са достъпни, което позволява промяна на само избрани части от документа, без да се налага да се реконструира целия документ от дърво.
Номерът на ред и колона на всяка позиция в изходния документ са лесно достъпни.
Осигурява един прост, но цялостен интерфейс за анализ и манипулация на HTML елементи за управление, включително извличането и населението на начални стойности, и конверсия само за четене или за показване на данни режими. Анализ на управление на формуляра също позволява на данни, получени от формата, която се съхранява и представя по подходящ начин.
Вградена функционалност за извличане на целия текст от HTML маркиране, подходяща за хранене в текстово търсачки като Apache Lucene.
Вградена функционалност да оказват HTML маркиране с проста форматиране на текст.
Вградена функционалност за форматиране на HTML сорс код, който прави отстъп елементи според дълбочината им в йерархията на документ елемент. (Кликнете тук за онлайн демонстрация)
Вградена функционалност за компактен HTML сорс код, като премахва всички ненужни бяло пространство.
Персонализирани видове етикет може лесно да бъде определено и регистрирано за признаване от парсера.

Какво ново в тази версия:.

Добавено Source (File) конструктор
Добавено OutputDocument.getSegment () метод.
Добавено OutputDocument.remove (инт започне, край инт) метод.
Добавено Renderer.setHRLineLength () метод.
Добавено RenderToText.jsp уеб приложение проба.
Добавено Segment.getRowColumnVector () метод.
откриване Encoding предприятието игнорира общи кодировки, посочени в мета тагове, които имат размер на код единица несъвместима с предварителния кодиране.

Какво ново версия 3.1:

Корекции на грешки:
безкраен цикъл на Segment.getAllStartTags ()
безкраен цикъл на Segment.getAllElements ()
Segment.getFirst * методи върнати сегменти извън сегмента на очертаващ.

Фиксирани грешки документиране Segment.getAllElements методи.
Добавено StreamedSource клас.
Промени, които биха могли да повлияят на поведението на съществуващите програми:
Променен ParseText от клас да се намесвам.
Segment.getNodeIterator () вече връща символни препратки като отделни възли.

Добавена статично Source.LegacyNodeIteratorCompatabilityMode имот временно да възстанови Segment.getNodeIterator () функционалност на този от предишните версии.
Премахнато Чар [] методи, основани от търсенето в ParseText.
Добавено CharacterReference.appendCharTo (Appendable) метод.
Добавено OutputDocument (Segment) конструктор.
програма Добавено StreamedSourceCopy проба.

10 Dec 15 в инструменти за разработка на скриптове, HTML Инструменти скриптове

Коментари към Jericho HTML Parser

Търсене по категория

Jericho HTML Parser

Подобен софтуер

X-Tag

Leaf

jquery.htmlClean

Salvattore

Друг софтуер на разработчика Martin Jericho

Jericho HTML Parser

Jericho HTML Parser

Коментари към Jericho HTML Parser

Коментари не е намерена

добавите коментар

Търсене по категория

Търсене по категория

Популярни софтуер

rasterizeHTML.js 11 Mar 16

Loofah 28 Sep 15

HTML to docx Converter 5 Jun 15

Pym.js 10 Dec 15

Slopy Elements 13 May 15

HTML-table 13 Apr 15

PopcornJS 14 Apr 15

Jericho HTML Parser

Подобен софтуер

X-Tag

Leaf

jquery.htmlClean

Salvattore

Друг софтуер на разработчика Martin Jericho

Jericho HTML Parser

Jericho HTML Parser

Коментари към Jericho HTML Parser

Коментари не е намерена

добавите коментар

Търсене по категория

Популярни софтуер

store 4 Jun 15

parse5 9 Apr 16

CSSPool 4 Jun 15

css3-mediaqueries.js 6 Jun 15

Htmleasy 6 Jun 15

selectivizr 13 May 15

CSS Specificity Graph Generator 1 Oct 15