mrjob е модул Python, която ви помага да пишете и тичам Hadoop Streaming работни места.
mrjob напълно подкрепя Elastic MapReduce (EMR) услугата на Amazon, която ви позволява да си купи време на Hadoop клъстер на почасова база. Той също така работи с вашата собствена Hadoop клъстер.
<Силен> Монтаж:
питон setup.py инсталиране
<Силен> Настройване на EMR на Amazon
& Nbsp; * създаване на Amazon Web Services сметка: http://aws.amazon.com/
& Nbsp; * запишете за Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Да си достъп и секретни ключове (отидете на http://aws.amazon.com/account/ и кликнете върху "идентификационни данни за защита") и да зададете на околната среда променливи $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY съответно
<Силен>
Опитайте! Силен>
# Локално
питон mrjob примери / / mr_word_freq_count.py README.md> обвинения
# На EMR
питон mrjob примери / / mr_word_freq_count.py README.md -r EMR> обвинения
# В Hadoop клъстер
питон mrjob / примери / mr_word_freq_count.py README.md -r Hadoop> обвинения
<Силен> Advanced Configuration
За да стартирате в други региони AWS, качете източник дърво, тичам грим, и да използвате други разширени функции mrjob, ще трябва да се създаде mrjob.conf. mrjob търси своята конф файл в:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf всяко място във вашия $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Вижте mrjob.conf.example за повече информация
<силни> Характеристики :.
- Run работни места на EMR, собствен Hadoop клъстер, или локално (за тестване).
- Напиши многоетапни работни места (една карта-намали стъпка се подава в следващия)
- Дублиране на вашето работно обкръжение вътре Hadoop
- Качете източник дърво и го сложи в твоята работа е $ PYTHONPATH
- Run Марка и друга настройка скриптове
- стойност на променлива (например $ TZ)
- Лесно инсталиране питон пакети от архиви (EMR само)
- Setup борави прозрачно, mrjob.conf конфигурационния файл
- Автоматично тълкува логове за грешки от EMR
- SSH тунел да тракер Hadoop работа на EMR
- Minimal настройка
- За да се движат по EMR, определен $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY
- За да се изпълни на вашата Hadoop клъстер, определен $ HADOOP_HOME
<силни> Изисквания :
- Python
Коментари не е намерена