Apache Nutch

Софтуер снимки:
Apache Nutch
Софтуер детайли:
Версия: 2.3
Дата на качване: 1 Mar 15
Розробник: Apache Software Foundation
Разрешително: Безплатно
Популярност: 36

Rating: 3.0/5 (Total Votes: 1)

Apache нуч е построен на върха на Apache Lucene , мощен търсене Java двигателя.
Нуч разработчици модифицирани на програмния код Lucene, трансформиране на данни-агностик Lucene програмния код в даден проект, посветен за търсене на данни в мрежата конкретно.
Тази технология може да се използва за търсене на собствения си уеб страници като вграден в търсене на сървъра, или обхождат мрежата търсят информация да се анализира и се изстъргва в базата си данни.
Нуч може да работи с една машина, но работи по-добре в <силни> Hadoop клъстери.
Различни приставки са достъпни за разширяване на използването на радиочестотния спектър

Какво ново в тази версия:.

  • Уверете се дублиращи тагове не съществуват в микроформата-reltag набор таг
  • .
  • A-добро падне обратно стойност за дата област.
  • Отърви се от ужас.
  • Ъпгрейд на Hadoop 1.2.0.
  • Ъпгрейд Tika 1.3.

Какво ново във версия 2.0:.

  • Преименувана HTMLParseFilter в ParseFilter
  • премахване на оставащите роботи / IP блокиране код в либералните-HTTP.
  • Port сеч да slf4j.
  • Външно анализатор поддържа кодиране атрибут.
  • Ivy конфигурационни настройки не включват гора.
  • Injector трябва да добавите метаданните преди да се обадите injectedScore.
  • Port нуч бенчмарк да Nutchbase.
  • Добави разбор-HTML обратно.
  • MoreIndexingFilter липсващата формат дата.
  • Timeout за Parser.
  • Нов опит интервал в момента обхождане е 0.
  • създава лог изход за Solr индексиращия и dedup.
  • Подобрена NutchConfiguration.
  • SolrDeleteDuplicates трябва да се клонира обектите SolrRecord.
  • Native LIBS не са налични през Maven Hadoop.
  • отделяне на изграждане и среди за.

Какво ново във версия 1.5:

  • Тази версия включва няколко подобрения, включително подобрения на няколко основни компонента, включително Тика 1.1 и 1.0.0 Hadoop, подобрения LinkRank и WebGraph елементи, както и редица нови плъгини, които обхващат в черен списък, филтриране и разбор да назовем само няколко.

Какво ново във версия 1.4:.

  • Добавено Solr 4x (багажника) например схема
  • Added "/ по време на работа", за да SVN игнорира.
  • Application / XHTML + XML трябва да бъде включен в plugin.xml на разбор-HTML; достъп на няколко mimetypes за plugin.xml.
  • Фиксирана разбор-ТИКА и разбор-HTML да използва относителната резолюция URL на RFC-3986.
  • обновен до Тика 0.10. ЗАБЕЛЕЖКА:. Нова RTF анализатор Тика може да игнорира по-дълъг текст в деформиран документи от преди - виж ТИКА-748 за подробности
  • Добавено Sonar цели до Ant build.xml.
  • обновен до версия 3.4.0 SolrJ.
  • Ant PMD цел е счупен.
  • Обновен Solr схема до версия 1.4.

Какво ново във версия 1.3:

  • Тази версия включва няколко подобрения (подобрена RSS разбор подкрепа, по-строг интеграция с Apache Тика, външна подкрепа разбор, подобрено идентифициране език и заповед на архив, освобождаване магнитуд по-малък източник -. само за 2MB)

Какво ново във версия 1.2:.

  • Направи индекс-по-приставка конфигурируеми
  • Конфигурируема файл протокол майка директория пълзене.
  • Timeout за Parser.
  • Website все още Lucene маркови.
  • Нов опит интервал в момента обхождане е 0.

Какво ново във версия 1.0:.

  • Позволи парсери да връща множество разбор на обекти
  • Премахнато съкратени Commons-сеч буркан от онтологията плъгин.
  • Bug в SegmentReader предизвиква безкраен цикъл.
  • точкуване филтър трябва да разпространявате вкарвайки за всички outlinks наведнъж.
  • Намаляване на броя на предупрежденията в нуч ядро.

Подобен софтуер

sitemap.js
sitemap.js

10 Feb 16

jquery-filter
jquery-filter

13 May 15

pyelasticsearch
pyelasticsearch

20 Jul 15

FilteringHighlight
FilteringHighlight

13 May 15

Друг софтуер на разработчика Apache Software Foundation

Apache jUDDI
Apache jUDDI

10 Apr 16

Apache Karaf
Apache Karaf

11 Mar 16

Apache Pig
Apache Pig

20 Jul 15

Коментари към Apache Nutch

Коментари не е намерена
добавите коментар
Включете на изображения!
Търсене по категория