Apache Nutch

Софтуер снимки:
Apache Nutch
Софтуер детайли:
Версия: 2.3
Дата на качване: 1 Mar 15
Розробник: Apache Software Foundation
Разрешително: Безплатно
Популярност: 128

Rating: 3.0/5 (Total Votes: 1)

Apache нуч е построен на върха на Apache Lucene , мощен търсене Java двигателя.
Нуч разработчици модифицирани на програмния код Lucene, трансформиране на данни-агностик Lucene програмния код в даден проект, посветен за търсене на данни в мрежата конкретно.
Тази технология може да се използва за търсене на собствения си уеб страници като вграден в търсене на сървъра, или обхождат мрежата търсят информация да се анализира и се изстъргва в базата си данни.
Нуч може да работи с една машина, но работи по-добре в <силни> Hadoop клъстери.
Различни приставки са достъпни за разширяване на използването на радиочестотния спектър

Какво ново в тази версия:.

  • Уверете се дублиращи тагове не съществуват в микроформата-reltag набор таг
  • .
  • A-добро падне обратно стойност за дата област.
  • Отърви се от ужас.
  • Ъпгрейд на Hadoop 1.2.0.
  • Ъпгрейд Tika 1.3.

Какво ново във версия 2.0:.

  • Преименувана HTMLParseFilter в ParseFilter
  • премахване на оставащите роботи / IP блокиране код в либералните-HTTP.
  • Port сеч да slf4j.
  • Външно анализатор поддържа кодиране атрибут.
  • Ivy конфигурационни настройки не включват гора.
  • Injector трябва да добавите метаданните преди да се обадите injectedScore.
  • Port нуч бенчмарк да Nutchbase.
  • Добави разбор-HTML обратно.
  • MoreIndexingFilter липсващата формат дата.
  • Timeout за Parser.
  • Нов опит интервал в момента обхождане е 0.
  • създава лог изход за Solr индексиращия и dedup.
  • Подобрена NutchConfiguration.
  • SolrDeleteDuplicates трябва да се клонира обектите SolrRecord.
  • Native LIBS не са налични през Maven Hadoop.
  • отделяне на изграждане и среди за.

Какво ново във версия 1.5:

  • Тази версия включва няколко подобрения, включително подобрения на няколко основни компонента, включително Тика 1.1 и 1.0.0 Hadoop, подобрения LinkRank и WebGraph елементи, както и редица нови плъгини, които обхващат в черен списък, филтриране и разбор да назовем само няколко.

Какво ново във версия 1.4:.

  • Добавено Solr 4x (багажника) например схема
  • Added "/ по време на работа", за да SVN игнорира.
  • Application / XHTML + XML трябва да бъде включен в plugin.xml на разбор-HTML; достъп на няколко mimetypes за plugin.xml.
  • Фиксирана разбор-ТИКА и разбор-HTML да използва относителната резолюция URL на RFC-3986.
  • обновен до Тика 0.10. ЗАБЕЛЕЖКА:. Нова RTF анализатор Тика може да игнорира по-дълъг текст в деформиран документи от преди - виж ТИКА-748 за подробности
  • Добавено Sonar цели до Ant build.xml.
  • обновен до версия 3.4.0 SolrJ.
  • Ant PMD цел е счупен.
  • Обновен Solr схема до версия 1.4.

Какво ново във версия 1.3:

  • Тази версия включва няколко подобрения (подобрена RSS разбор подкрепа, по-строг интеграция с Apache Тика, външна подкрепа разбор, подобрено идентифициране език и заповед на архив, освобождаване магнитуд по-малък източник -. само за 2MB)

Какво ново във версия 1.2:.

  • Направи индекс-по-приставка конфигурируеми
  • Конфигурируема файл протокол майка директория пълзене.
  • Timeout за Parser.
  • Website все още Lucene маркови.
  • Нов опит интервал в момента обхождане е 0.

Какво ново във версия 1.0:.

  • Позволи парсери да връща множество разбор на обекти
  • Премахнато съкратени Commons-сеч буркан от онтологията плъгин.
  • Bug в SegmentReader предизвиква безкраен цикъл.
  • точкуване филтър трябва да разпространявате вкарвайки за всички outlinks наведнъж.
  • Намаляване на броя на предупрежденията в нуч ядро.

Подобен софтуер

mysolr
mysolr

13 Apr 15

PHPCrawl
PHPCrawl

1 Mar 15

Друг софтуер на разработчика Apache Software Foundation

Коментари към Apache Nutch

Коментари не е намерена
добавите коментар
Включете на изображения!
Търсене по категория