Apache нуч е построен на върха на Apache Lucene , мощен търсене Java двигателя.
Нуч разработчици модифицирани на програмния код Lucene, трансформиране на данни-агностик Lucene програмния код в даден проект, посветен за търсене на данни в мрежата конкретно.
Тази технология може да се използва за търсене на собствения си уеб страници като вграден в търсене на сървъра, или обхождат мрежата търсят информация да се анализира и се изстъргва в базата си данни.
Нуч може да работи с една машина, но работи по-добре в <силни> Hadoop силни> клъстери.
Различни приставки са достъпни за разширяване на използването на радиочестотния спектър
Какво ново в тази версия:.
- Уверете се дублиращи тагове не съществуват в микроформата-reltag набор таг .
- A-добро падне обратно стойност за дата област.
- Отърви се от ужас.
- Ъпгрейд на Hadoop 1.2.0.
- Ъпгрейд Tika 1.3.
Какво ново във версия 2.0:.
- Преименувана HTMLParseFilter в ParseFilter
- премахване на оставащите роботи / IP блокиране код в либералните-HTTP.
- Port сеч да slf4j.
- Външно анализатор поддържа кодиране атрибут.
- Ivy конфигурационни настройки не включват гора.
- Injector трябва да добавите метаданните преди да се обадите injectedScore.
- Port нуч бенчмарк да Nutchbase.
- Добави разбор-HTML обратно.
- MoreIndexingFilter липсващата формат дата.
- Timeout за Parser.
- Нов опит интервал в момента обхождане е 0.
- създава лог изход за Solr индексиращия и dedup.
- Подобрена NutchConfiguration.
- SolrDeleteDuplicates трябва да се клонира обектите SolrRecord.
- Native LIBS не са налични през Maven Hadoop.
- отделяне на изграждане и среди за.
Какво ново във версия 1.5:
- Тази версия включва няколко подобрения, включително подобрения на няколко основни компонента, включително Тика 1.1 и 1.0.0 Hadoop, подобрения LinkRank и WebGraph елементи, както и редица нови плъгини, които обхващат в черен списък, филтриране и разбор да назовем само няколко.
Какво ново във версия 1.4:.
- Добавено Solr 4x (багажника) например схема
- Added "/ по време на работа", за да SVN игнорира.
- Application / XHTML + XML трябва да бъде включен в plugin.xml на разбор-HTML; достъп на няколко mimetypes за plugin.xml.
- Фиксирана разбор-ТИКА и разбор-HTML да използва относителната резолюция URL на RFC-3986.
- обновен до Тика 0.10. ЗАБЕЛЕЖКА:. Нова RTF анализатор Тика може да игнорира по-дълъг текст в деформиран документи от преди - виж ТИКА-748 за подробности
- Добавено Sonar цели до Ant build.xml.
- обновен до версия 3.4.0 SolrJ.
- Ant PMD цел е счупен.
- Обновен Solr схема до версия 1.4.
Какво ново във версия 1.3:
- Тази версия включва няколко подобрения (подобрена RSS разбор подкрепа, по-строг интеграция с Apache Тика, външна подкрепа разбор, подобрено идентифициране език и заповед на архив, освобождаване магнитуд по-малък източник -. само за 2MB)
Какво ново във версия 1.2:.
- Направи индекс-по-приставка конфигурируеми
- Конфигурируема файл протокол майка директория пълзене.
- Timeout за Parser.
- Website все още Lucene маркови.
- Нов опит интервал в момента обхождане е 0.
Какво ново във версия 1.0:.
- Позволи парсери да връща множество разбор на обекти
- Премахнато съкратени Commons-сеч буркан от онтологията плъгин.
- Bug в SegmentReader предизвиква безкраен цикъл.
- точкуване филтър трябва да разпространявате вкарвайки за всички outlinks наведнъж.
- Намаляване на броя на предупрежденията в нуч ядро.
Коментари не е намерена