Apache Nutch

Софтуер снимки:
Apache Nutch
Софтуер детайли:
Версия: 2.3 актуализира
Дата на качване: 17 Jul 15
Розробник: Sami Siren
Разрешително: Безплатно
Популярност: 12

Rating: 1.0/5 (Total Votes: 2)

проекта Apache нуч е с отворен код, мащабируем, изключително разширяем и безплатен уеб-базиран софтуер за уеб робот, който се основава на Apache Lucene (Java версия) библиотека.
Тя добавя, уеб специфики, като робот, база данни връзка-графика, парсери за HTML и други формати на документи и т.н. Тя е разработена и разпространявана от фондацията Apache, той два отделни отрасли.
Да бъдеш модулна и сменяем, Apache нуч има своите предимства, чрез предоставяне на разтегателни интерфейси като Parse, индекс и ScoringFilter за потребителски приложения, като например Apache Tika за разбор.
Освен това, Apache нуч е проектиран да работи на една машина, но това е по-силен, когато работи в Hadoop клъстер. Съществува Pluggable индексиране за Elastic Search, Apache Solr и др

Какво ново в тази версия:.

  • нуч-1779 Нанесете форматиране на кода (lewismc)
  • нуч-1907 Неправилно изход на Outlinks да е домакин в рамките HostDbUpdateReducer (lewismc)
  • нуч-1856 webpage.avsc документ и host.avsc (lewismc)
  • нуч-1834 GeneratorMapper поведение зависи от дневника ниво (Gerhard Gossen чрез snagel)
  • нуч-1899 ъпгрейд restlet либералните за да се предотврати натрупването недостатъчност (Талят)
  • нуч-1797 премахнете неизползвани пакет oanhtml (Saurabh Chhajed чрез snagel)
  • нуч-1888 Посочете HTMLMapper да използва в TikaParser (Халил Шимшек чрез jnioche)
  • нуч-1897-лесно отстраняване на грешки на плъгин XML грешки (Markus)
  • нуч-1823 Upgrade да elasticsearch 1.4.1 (Phu Kieu, Маркус, lewismc)
  • нуч-1829 Generator: не може да се прави разлика реални грешки (Mathieu Бушар, jnioche, snagel)
  • нуч-1778 Generator не влезете брой URL адреси в партида правилно (jnioche чрез snagel)
  • нуч-1877 Суфикс URL филтър, за да се игнорира стринг заявка по подразбиране (Markus чрез snagel)
  • нуч-1825 протокол HTTP-може да се мотае за определени уеб страници (Phu Kieu чрез snagel)
  • нуч-1483 не може да пълзи файлова система с протокол-файл плъгин (Rogerio Pereira Араужо, Mengying Wang, snagel)
  • нуч-1885 Протокол-файл трябва да се отнасяме символни връзки като пренасочвания (Mengying Уанг, snagel)
  • нуч-1880 URLUtil не трябва да се добавят допълнителни черти за файлови URL адреси (snagel)
  • нуч-1879 Regex URL нормализатор трябва да премахнете множество цепки след файл: протокол (snagel)
  • нуч-1820 премахнете поле & quot; ориг & quot; която дублира & Идентификационният & quot; (lewismc, snagel)
  • нуч-1843 Upgrade да Gora 0.5 (Талят, lewismc, Кирил Меншиков, drazzib)
  • нуч-1883 бин / обхождане: използване функция, за да стартирате бин / нуч и проверете стойност изход (snagel)
  • нуч-1882 целева мравка затъмнение, за да добавите изход път към SRC / изпитване (snagel)
  • нуч-1827 Port нуч-1467 и нуч-1561, за да 2.x (snagel)
  • нуч-1876 Upgrade да Верижен Commons 0.5 (jnioche)
  • нуч-1866 целева мравка затъмнение не трябва да изтриете по време на работа (nimafl чрез lewismc)
  • нуч-1859 Направи нуч уеб приложение пристанище конфигурируеми (Nima Falaki чрез lewismc)
  • нуч-1848 Bug в DashboardPage.html случаи брояч (Nima Falaki чрез lewismc)
  • нуч-841 Създайте Вградена-базирани Web Application за нуч (Fjodor Vershinin чрез lewismc)
  • нуч-1832 Направи нуч работа без индексиращия (Mattmann чрез lewismc)
  • нуч-1840 функцията опишете SolrIndexWriter не е правилна (Кавех minooie чрез jnioche)
  • нуч-1837 Upgrade да Tika 1.6 (lewismc)
  • нуч-1829 Generator: не може да се прави разлика реални грешки (Mathieu Бушар чрез jnioche)
  • нуч-1828 бин / обхождане: неправилно боравене с нуч грешки (Mathieu Бушар чрез jnioche)
  • нуч-1693 TextMD5Signature изчислява на текстово съдържание (Tien Нгуен Manh, Markus чрез snagel)
  • нуч-1409 Премахване на отхвърлената свойства db. {подразбиране, макс} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle чрез snagel)
  • нуч-1819 batchId в GeneratorJob (Fjodor Vershinin чрез lewismc)
  • нуч-1708 използва същия номер, когато индексиране и изтриване на пренасочвания (snagel)
  • нуч-1817 Махни pom.xml от източника (jnioche)
  • нуч-1811 бин / нуч JUnit да използвате JUnit 4 теста бегач (snagel)
  • нуч-1776 Log неправилно plugin.folder пътя на файла (Diaa чрез snagel)
  • нуч-1566 бин / нуч да позволи празно в пътеките (tejasp, snagel)
  • нуч-1605 MIME тип детектор признава XLSX като пощенски файл (snagel)
  • нуч-385 Подобряване описание на конфигурацията тема, свързана с програмата за изтегляне (jnioche, Lufeng)
  • нуч-1798 Crawl скрипт да не се поставят индекс команда правилно (Aaron Bedward чрез jnioche)
  • нуч-1769 REST API рефакториране (Fjodor Vershinin чрез lewismc)
  • нуч-1633 slf4j се осигурява от Hadoop и не следва да бъдат включени в досието на работни места (Кавех minooie чрез jnioche)
  • нуч-1787 актуализация и пълен преглед API док страница (snagel)
  • нуч-1767 премахне специалната обработка на & quot; & quot PARAMS; в относителни връзки (snagel)
  • нуч-1718 предефинира http.robots.agent като & quot; допълнителни имена агент & quot; (snagel, Tejas Патил, Daniel Kugel)

  • <> Li нуч-1796 Осигурете гора обектни строители се използват като се противопостави на празни конструктори (snagel чрез lewismc)
  • нуч-1590 [SECURITY] Frame уязвимост инжекция в публикувана Javadoc (jnioche)
  • нуч-1736 не могат да бъдат извлечени страница, ако заглавието отговор HTTP съдържа Transfer-Encoding: chunked (ysc чрез jnioche)
  • нуч-1782 NodeWalker да се върне текущата възел (Markus)
  • нуч-1781 Актуализация гора - * - mapping.xml и gora.proeprties да отразяват Gora 0.4 (lewismc)
  • нуч-1768 Upgrade да ElasticSearch 1.1.0 (jnioche)
  • нуч-1634 readdb -stats показва резултата на два пъти (Кавех minooie чрез jnioche)
  • нуч-1780 TTL и gc_grace_seconds атрибути липсват гора-Касандра-mapping.xml файл (Кавех minooie чрез lewismc)
  • нуч-1676 Добави елементарен SSL поддръжка за протокола HTTP-(jnioche, Markus)
  • нуч-1674 Използвайте batchId филтър, за да се даде възможност за сканиране (GORA-119) за Донеси, разбор, обновяване, Index (Tien Нгуен Manh и Alparslan Avci чрез jnioche)
  • нуч-1714 Upgrade да Gora 0.4 (Alparslan Avci чрез jnioche)
  • нуч-1752 правила Cache robots.txt по протокол: хост: порт (snagel)
  • нуч-1613 кратки прекъсвания в протокол-httpclient при обхождането на същия хост с & GT; 2 теми (brian44 чрез jnioche)
  • нуч-1182 програмата за изтегляне, за да влезете окачени теми (snagel)
  • нуч-1618 Обърни спекулативно изпълнение на разстояние за Fetching (Талят)
  • нуч-1657 ORIGINAL_CHAR_ENCODING и CHAR_ENCODING_FOR_CONVERSION никога помещава в HTMLParser (Талят)
  • редуктор нуч-1725 CleaningJob му не се ангажират изтрити документи. (ilhamikalkan чрез Талят)
  • нуч-1728 индексиращия-Solr плъгин не се изтрива документи от Solr (ilhamikalkan чрез Талят)
  • нуч-1753 Eclipse dependecy проблем за 2.x (Талят)
  • нуч-1720 Дублиращи линии в HttpBase.java (Walter Tietze чрез jnioche)
  • нуч-797 URL не конструирано правилно, когато целта на връзката започва с & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, аб направо snagel)
  • нуч-1759 Upgrade да Верижен Commons 0.4 (jnioche)
  • нуч-1700 Премахни отхвърлена код в SRC / плъгин / creativecommons / build.xml (lewismc)
  • нуч-1761 Crawl скрипт не успее да намери файл работа, ако не е започнал от вътрешността бин реж (David Hosking, jnioche)
  • нуч-1603 ZIP анализатор оплаква пресечен PDF файл (snagel чрез lewismc)
  • нуч-1743 parsechecker да покаже outlinks (snagel)
  • нуч-1732-добро ПМС линия разбор за NutchServer (Fjodor Vershinin чрез lewismc)
  • нуч-1751 Празните котви не трябва индекс (Sertac TURKEL чрез lewismc)
  • нуч-1733 синтактична-HTML да подкрепят HTML5 определения набор от знаци (snagel)
  • нуч-1727 КОНФИГУРИРУЕМИ дължина за ДПН (Sertac TURKEL чрез lewismc)
  • нуч-1738 Expose брой URL адреси, генерирани от партида в GeneratorJob (Талят UYARER чрез ewismc)
  • нуч-1671 indexchecker да добавите дайджест поле (snagel, Lufeng)
  • нуч-1645 Junit Test дело за Adaptive Изважда Schedule клас (Ясин Kilinc, Lufeng, Sertac URKEL чрез snagel)

  • <> Li нуч-1478-разбор на метатагове и индекс-метаданни плъгин за нуч 2.x серия (Киран, Nguyen Anh Tien, Талят UYARER, Вангелис Карвунис чрез lewismc)
  • нуч-1729 Upgrade да Tika 1.5 (jnioche)
  • нуч-1721 Ъпгрейд Верижен общо 0.3 (tejasp)
  • нуч-1719 DomainStatistics провали в 2.x, защото URL не е unreversed (Gerhard Gossen чрез lewismc)
  • нуч-1253 Incompatable Neko и xerces версии (snagel, lewismc, Талят UYARER)
  • нуч-1715 RobotRulesParser добавя допълнителна "*" до името на роботи (tejasp)
  • нуч-356 Plugin хранилище кеш паметта може да доведе до теч (Enrico Triolo, Dogacan Guney чрез Маркус)

  • <> Li нуч-1164 Write JUnit тестове за протокол HTTP-(Sertac TURKEL чрез tejasp)
  • нуч-1710 Add гора пакет сеч да log4j.properties (lewismc)
  • нуч-1655 Indexer Plugin за Elastic Search (Талят UYARER чрез lewismc)
  • нуч-1699 Tika Parser - Изображение Parse Bug (Mehmet Zahid Yuzuguldu, snagel чрез lewismc)
  • нуч-1568 порт сменяем индексиране архитектура да 2.x (Талят UYARER чрез lewismc)

  • <> Li нуч-1672 Inlinks се добавят два пъти в DbUpdateReducer (Tien Нгуен Manh чрез lewismc)
  • нуч-1667 Updatedb винаги игнорира batchId (Tien Нгуен Manh чрез lewismc)
  • нуч-1695 NutchDocument.toString () (Markus чрез lewismc)
  • нуч-1696 Enable използване на (Гора) SNAPSHOT зависимости (lewismc)
  • нуч-1681 В URLUtil.java, метод toUNICODE не работи правилно (A

Коментари към Apache Nutch

Коментари не е намерена
добавите коментар
Включете на изображения!