Софтуерът Methabot е скорост-оптимизиран, скриптираща и конфигурира лесно уеб, FTP и местно верижен файлова система. Той поддържа сценарист Тип разбор, голямо разнообразие от опции за персонализиране и лесно се конфигурира да се поберат нечии нужди.
С използването на системата за модул и скриптов език, потребителите ще могат да се възползват в пълна или частична контрол на процеса на обхождането и да реши обаче Methabot трябва да се съхранява на уеб данни, статистика и много повече.
Просто като пуснете Methabot от команден ред вие сте в състояние Конфигуриране на потребителски типове файлове, филтриране изрази, поведение, и много повече, така че не е нужно да бъде Scripter
<силни> Характеристики !:
- Той е бърз, проектирана от земята и с бързо оптимизация в ума.
- скриптираща чрез Javascript с E4X
- Дефинирани от потребителя Тип филтриране (според MIME тип, файлово разширение или UMEX израз)
- Multi-резбовани
- конфигурира лесно от команден ред
- Extensible система модул, поддържащ парсери потребителски данни и филтри.
- Проста но мощна филтриране на URL адреси чрез UMEX.
- Automated изтегляне
- Подкрепа за автоматичното управление на бисквитки, когато работи над HTTP
- Надежден, отказоустойчива мрежи
- Portable, тествана успешно в 32-битов / 64-битов Linux 2.6, 32-битова / 64-битова FreeBSD 6.x / 7.0, Windows XP и Mac OS X. Трябва да работи на почти всяка Unix-подобни OS.
Какво ново в тази версия:
- Bugfix, когато се използва външно-Пийк граница на дълбочината е побъркани.
- Memory почистване поправки
- динамично-URL вече не е настроен на търсене по подразбиране, тъй като тя забавя пълзи значително
- Изграждане система сега създава и инсталира някои заглавни файлове, че модули могат да използват при свързването
- Metha-довереник инструмент добавя
- lmm_mysql преместени извън този пакет
Употребата
Опция
Какво ново във версия 1.5.0:
- Промени и нови функции:
- Подкрепа за четене първоначална буфер от стандартния вход
- - добавят тип и --base-URL опции за командния ред, заедно с опцията initial_filetype в конфигурационните файлове
- Cookies и DNS информация сега се разпределят равномерно между работниците, когато работи многонишков
- Добавена някои например използване на команди за --examples
- Големи подобрения съобщението на интер-конци, сега по-бързо и по-организирана
- Добавена е поддръжка за "първоначален" функции на скриптове. Прочетете повече за инициализиращите функции в http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha не замръзва, когато се прави множество едновременни заявки HTTP HEAD вече. Причината за замръзва е бъг в libcurl който сега е фиксиран. Някои заобиколни са били добавени към libmetha да предотврати замръзва от което възниква, когато използвате версии дефект libcurl, както добре.
- Подкрепа за по-старите версии libcurl 7.17.x и 7.16.x
- New информация е налична в & quot; това & quot; Обект на JavaScript парсери, тип съдържание и състоянието трансфер код. Прочетете повече в http://bithack.se/projects/methabot/docs/e4x/this.html
- - многословно опция заменя с --silent, тъй многословно режим вече е по подразбиране
- Първоначална подкрепа за FTP пълзи и опцията ftp_dir_url верижен
- ограничаване на дълбочината, сега е робот-специфична
- Добавена опции на командния ред --crawler и --filetype
- Подкрепа за разширяване и императивно вече определени роботите и типове файлове
- Подкрепа за ключовата дума за копие в конфигурационните файлове
- Подкрепа за динамично превключване на активния робота, това ви дава възможност да пълзи различни сайтове в напълно различни начини в една пълзи сесия. Прочетете повече за верижен превключване при http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev версия ъпгрейд до 3.51
- The включи Директива в конфигурационните файлове в момента се грижи за включени конфигурационния файл не е бил зареден, за да се предотврати включва канали и множество дефиниции Тип / багери.
- Различни поправки за събиране на боклук SpiderMonkey, libmetha не катастрофата вече при почистване след многонишкова сесия
- добавя допълнителна информация на --info опцията
- The "външен" вариант сега е фиксиран и отново включен
- нова опция --spread-работници
- New libmetha API функция lmetha_global_setopt () позволява промяна на глобалната грешка / съобщение / предупреждение репортер
- Добавена на първоначалното въвеждане на тестов пакет за разработчици
- По-добро отчитане на грешка при зареждане на конфигурационни файлове
- Bugfix когато HTTP сървър не се връща Content-Type с глава една след искане на HEAD
- Bugfix при сортиране URLs след многобройните искания HTTP HEAD
- Bugfix в HTML да XML Конвертор когато HTML страницата не е имал & LT; HTML & GT; таг
- Bugfix, опцията extless-URL не работи
- Bugfix, HTML да XML Конвертор вече не задавя марка байт-ред и други текстови, преди действителното HTML
- Bugfix, предотвратявайки libmetha от опит за достъп до URL адреси на протоколи, които не се поддържат
- Bugfix когато изключи след грешка.
- Bugfix, неразрешими URL адреси не избухват примката повторен опит след три повторения
- Много опитни и нестабилна подкрепа за Win32, предназначен главно за разработчици
- Нови конфигурационни файлове:
- google.conf, да изпълняват Google търсения
- youtube.conf, търсите YouTube
- meta.conf, щампи мета информация като ключови думи и описание за HTML страници
- title.conf, отпечатва заглавието на HTML страници
- ftp.conf, за да пълзи FTP сървъри
Какво ново във версия 1.4.1:
- Configure не може да се намери jsapi.h на някои системи , това следва да се определи сега.
- Конфигурационни файлове вече могат да се променят в верижен и Тип знамена, добавя опциите "външен" и "external_peek"
- Bugfix, Methabot би понякога катастрофата, при почистване на празни URLs след многократно HTTP HEAD
- Фиксирана катастрофа, което е настъпило, когато работи синхронно.
- Изграждане система включва корекция, когато jsconfig.h не може да бъде намерен.
<силни> Изисквания
- SpiderMonkey заглавията
- Curl
Коментари не е намерена