Apache Spark

Софтуер снимки:
Apache Spark
Софтуер детайли:
Версия: 1.6.0 актуализира
Дата на качване: 6 Mar 16
Розробник: Apache Software Foundation
Разрешително: Безплатно
Популярност: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark имаше за цел да подобри скорости за анализ на данни и манипулиране на програми за обработка.

Тя е написана в Java и Scala и осигурява функции, които не се срещат в други системи, най-вече, защото те не са мейнстрийм, нито че полезно за приложения за обработка на не-данни.

Spark за първи път е създадена в Калифорнийския университет в Бъркли AMP лаборатория и по-късно дарени на фондацията Apache Software

Какво ново в тази версия:.

  • за управление и памет -. Обща памет за изпълнение и кеширане вместо изключителен разделение на регионите
  • Паркет представяне - Подобряване на производителността на сканиране Паркет при използване на плоски схеми
  • .
  • Подобрена заявка плановик за заявки, които имат различни съвкупности -. Критерии за планове на отделни съвкупности са по-стабилни, когато отделни колони имат високо кардиналност
  • Adaptive изпълнение на заявката -. Първоначална подкрепа за автоматично избиране на брой изпарители присъединява и струпвания
  • избягване на двойното филтри в Data Source API -. При прилагането на източник на данни с филтър разгъване надолу, разработчиците вече могат да кажат Spark SQL, за да се избегне двойното оценяване тласкан-надолу филтър
  • Fast нула-безопасно присъединява - се присъединява към използване на нула-безопасно равенство (& # x3c; = & # x3e;) сега ще се изпълни с помощта SortMergeJoin вместо изчисляване на cartisian продукт
  • .
  • В-памет колонен Cache представяне - Значително (до 14ч) се ускори, когато кеширане на данни, която съдържа сложни видове в DataFrames или SQL
  • .
  • SQL Execution Използването Off-Heap Memory - Подкрепа за конфигуриране на изпълнение на заявката, за да се появят при използване извън куп памет, за да се избегне GC режийни

Какво е нови във версия 1.5.2:

  • ядро ​​на API за сега поддържа агрегация дървета на много нива да допринесе за ускоряване на скъпи намали операции.
  • Подобряване на отчитането на грешки е добавен за някои Пипнах операции.

  • Jetty зависимостта
  • Spark е сега сенчести да помогне да се избегнат конфликти с потребителски програми.
  • Spark вече поддържа SSL криптиране за някои крайни точки на комуникация.
  • Добавени са Realtime GC показатели и рекордни обвинения към потребителския интерфейс.

Какво е нови във версия 1.4.0:

  • ядро ​​на API за сега поддържа агрегация дървета на много нива да допринесе за ускоряване на скъпи намали операции.
  • Подобряване на отчитането на грешки е добавен за някои Пипнах операции.

  • Jetty зависимостта
  • Spark е сега сенчести да помогне да се избегнат конфликти с потребителски програми.
  • Spark вече поддържа SSL криптиране за някои крайни точки на комуникация.
  • Добавени са Realtime GC показатели и рекордни обвинения към потребителския интерфейс.

Какво ново във версия 1.2.0:

  • подреди оператор PySpark сега поддържа външния разливане на големи масиви от данни .
  • PySpark вече поддържа излъчване променливи по-голям от 2 GB и извършва външна разливане по време на видове.
  • Spark добавя страница на работа ниво на напредък в потребителския интерфейс на Spark, стабилна API за отчитане на напредъка, и динамично актуализиране на изходните показатели като работни места пълна.
  • Spark вече има поддръжка за четене бинарни файлове за изображения и други двоични формати.

Какво е новото във версия 1.0.0:

  • Тази версия разширява стандартните библиотеки на Спарк, въвеждане на нова SQL пакет (Spark SQL), която позволява на потребителите да интегрират SQL заявки в съществуващи Spark работни потоци.
  • MLlib, библиотека машинно обучение на Spark, се разширява с рядка подкрепа вектор и няколко нови алгоритми.

Какво ново във версия 0.9.1:

  • Фиксиран хеш сблъсък бъг във външната разливане
  • Фиксиран конфликт с Log4j Spark за потребители, които разчитат на други сеч Неуспех
  • Фиксиран Graphx липсва от Spark монтаж буркан в Maven изгражда
  • Фиксирани мълчаливите откази, дължащи се на карта състоянието на изход над размер Akka рамка
  • ненужно пряка зависимост Премахнато Spark върху ASM
  • Премахнати показатели-ганглии от неизпълнение натрупване поради LGPL конфликт лиценз
  • Фиксиран бъг в разпределението архив, който не съдържа искра монтаж буркан

Какво ново във версия 0.8.0:

  • развитие е преместен на фондация Apache Sowftware като инкубатор проект.

Какво е новото във версия 0.7.3:

  • Python изпълнение: механизъм на Spark за хвърляне на хайвера Python виртуални машини има подобрена, за да го направят по-бързо, когато JVM разполага с голям размер грамада, ускоряване на Python API.
  • Mesos поправя: JAR, добавени към вашата работа, сега ще бъдат на CLASSPATH когато deserializing резултати за изпълнение на задачи в Mesos
  • .
  • отчитане. Грешка: По-добро отчитане грешка за не-Serializable изключения и прекалено големи резултати задачи
  • Примери:. Добавен пример за динамична защитна обработка поток с updateStateByKey
  • Изграждане:. Spark Streaming вече не зависи от репо на Twitter4J, който трябва да позволи това да се изгради в Китай
  • Корекции на грешки в foldByKey, стрийминг на брой, статистика методи, документация, и уеб интерфейс.

Какво ново във версия 0.7.2:.

  • Scala версия обновен до 2.9.3
  • Няколко подобрения Bagel, включително поправки за ефективност и конфигурируеми ниво на съхранение.
  • Нови методи API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition и др
  • А нови отчетни показатели интерфейс, SparkListener, за да събира информация за всеки етап изчисление:. Дължини задача, байтове размесват и др
  • Няколко нови примери, използващи Java API, включително K-средства и изчислителна пи.

Какво ново във версия 0.7.0:

  • Spark 0.7 добавя Python API нарича PySpark <. / Li>
  • Spark работни места сега стартират уеб таблото за наблюдение на използването на паметта на всеки разпределени набор от данни (RDD) в програмата.
  • Spark вече може да бъде изграден с помощта на Maven в допълнение към SBT.

Какво ново във версия 0.6.1:

  • Фиксиран прекалено агресивен съобщение таймаут интервали, които могат да причинят работници да изключете от клъстера.
  • Фиксирана бъг в режим на самостоятелна Deploy, че не се излага на хостове към разписание, засягащи HDFS местност.
  • Подобрена връзка повторна употреба в разбъркано, което може значително да ускори малки усуквания.
  • Фиксирани някои потенциални мъртвите зони в мениджъра на блок.
  • Фиксирана бъг получаване IDs провалени домакини от Mesos.
  • Няколко подобрения EC2 скрипт, като по-добро управление на спот случаи.
  • Произведено местната IP адрес, че Spark се свързва с адаптивни.
  • Подкрепа за Hadoop 2 дистрибуции.
  • Подкрепа за намиране на Scala на Debian дистрибуции.

Какво ново във версия 0.6.0:.

  • Опростени разполагане
  • документация на Spark е разширена с нова Ръководство за бърз старт, допълнителни инструкции за внедряване, конфигуриране употреба, тунинг за употреба, и подобрена документация Scaladoc API.
  • Нов комуникация мениджър използва асинхронно Java NIO позволява операции разбърквате работят по-бързо, особено при изпращане на големи количества данни или когато работните места са с много задачи.
  • Нов мениджър съхранение поддържа по-данните на настройките на ниво съхранение (например дали да се запази набор от данни в паметта, deserialized, на диск и т.н., или дори повторен през възли).
  • Засилено отстраняване на грешки.

Друг софтуер на разработчика Apache Software Foundation

Apache Shiro
Apache Shiro

1 Oct 15

Apache Pig
Apache Pig

20 Jul 15

Apache Abdera
Apache Abdera

13 Apr 15

Коментари към Apache Spark

Коментари не е намерена
добавите коментар
Включете на изображения!
Търсене по категория