Apache Spark имаше за цел да подобри скорости за анализ на данни и манипулиране на програми за обработка.
Тя е написана в Java и Scala и осигурява функции, които не се срещат в други системи, най-вече, защото те не са мейнстрийм, нито че полезно за приложения за обработка на не-данни.
Spark за първи път е създадена в Калифорнийския университет в Бъркли AMP лаборатория и по-късно дарени на фондацията Apache Software
Какво ново в тази версия:.
- за управление и памет -. Обща памет за изпълнение и кеширане вместо изключителен разделение на регионите
- Паркет представяне - Подобряване на производителността на сканиране Паркет при използване на плоски схеми .
- Подобрена заявка плановик за заявки, които имат различни съвкупности -. Критерии за планове на отделни съвкупности са по-стабилни, когато отделни колони имат високо кардиналност
- Adaptive изпълнение на заявката -. Първоначална подкрепа за автоматично избиране на брой изпарители присъединява и струпвания
- избягване на двойното филтри в Data Source API -. При прилагането на източник на данни с филтър разгъване надолу, разработчиците вече могат да кажат Spark SQL, за да се избегне двойното оценяване тласкан-надолу филтър
- Fast нула-безопасно присъединява - се присъединява към използване на нула-безопасно равенство (& # x3c; = & # x3e;) сега ще се изпълни с помощта SortMergeJoin вместо изчисляване на cartisian продукт .
- В-памет колонен Cache представяне - Значително (до 14ч) се ускори, когато кеширане на данни, която съдържа сложни видове в DataFrames или SQL .
- SQL Execution Използването Off-Heap Memory - Подкрепа за конфигуриране на изпълнение на заявката, за да се появят при използване извън куп памет, за да се избегне GC режийни
Какво е нови във версия 1.5.2:
- ядро на API за сега поддържа агрегация дървета на много нива да допринесе за ускоряване на скъпи намали операции.
- Подобряване на отчитането на грешки е добавен за някои Пипнах операции.
- Spark е сега сенчести да помогне да се избегнат конфликти с потребителски програми.
- Spark вече поддържа SSL криптиране за някои крайни точки на комуникация.
- Добавени са Realtime GC показатели и рекордни обвинения към потребителския интерфейс.
Jetty зависимостта
Какво е нови във версия 1.4.0:
- ядро на API за сега поддържа агрегация дървета на много нива да допринесе за ускоряване на скъпи намали операции.
- Подобряване на отчитането на грешки е добавен за някои Пипнах операции.
- Spark е сега сенчести да помогне да се избегнат конфликти с потребителски програми.
- Spark вече поддържа SSL криптиране за някои крайни точки на комуникация.
- Добавени са Realtime GC показатели и рекордни обвинения към потребителския интерфейс.
Jetty зависимостта
Какво ново във версия 1.2.0:
- подреди оператор PySpark сега поддържа външния разливане на големи масиви от данни .
- PySpark вече поддържа излъчване променливи по-голям от 2 GB и извършва външна разливане по време на видове.
- Spark добавя страница на работа ниво на напредък в потребителския интерфейс на Spark, стабилна API за отчитане на напредъка, и динамично актуализиране на изходните показатели като работни места пълна.
- Spark вече има поддръжка за четене бинарни файлове за изображения и други двоични формати.
Какво е новото във версия 1.0.0:
- Тази версия разширява стандартните библиотеки на Спарк, въвеждане на нова SQL пакет (Spark SQL), която позволява на потребителите да интегрират SQL заявки в съществуващи Spark работни потоци.
- MLlib, библиотека машинно обучение на Spark, се разширява с рядка подкрепа вектор и няколко нови алгоритми.
Какво ново във версия 0.9.1:
- Фиксиран хеш сблъсък бъг във външната разливане
- Фиксиран конфликт с Log4j Spark за потребители, които разчитат на други сеч Неуспех
- Фиксиран Graphx липсва от Spark монтаж буркан в Maven изгражда
- Фиксирани мълчаливите откази, дължащи се на карта състоянието на изход над размер Akka рамка
- ненужно пряка зависимост Премахнато Spark върху ASM
- Премахнати показатели-ганглии от неизпълнение натрупване поради LGPL конфликт лиценз
- Фиксиран бъг в разпределението архив, който не съдържа искра монтаж буркан
Какво ново във версия 0.8.0:
- развитие е преместен на фондация Apache Sowftware като инкубатор проект.
Какво е новото във версия 0.7.3:
- Python изпълнение: механизъм на Spark за хвърляне на хайвера Python виртуални машини има подобрена, за да го направят по-бързо, когато JVM разполага с голям размер грамада, ускоряване на Python API.
- Mesos поправя: JAR, добавени към вашата работа, сега ще бъдат на CLASSPATH когато deserializing резултати за изпълнение на задачи в Mesos .
- отчитане. Грешка: По-добро отчитане грешка за не-Serializable изключения и прекалено големи резултати задачи
- Примери:. Добавен пример за динамична защитна обработка поток с updateStateByKey
- Изграждане:. Spark Streaming вече не зависи от репо на Twitter4J, който трябва да позволи това да се изгради в Китай
- Корекции на грешки в foldByKey, стрийминг на брой, статистика методи, документация, и уеб интерфейс.
Какво ново във версия 0.7.2:.
- Scala версия обновен до 2.9.3
- Няколко подобрения Bagel, включително поправки за ефективност и конфигурируеми ниво на съхранение.
- Нови методи API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition и др
- А нови отчетни показатели интерфейс, SparkListener, за да събира информация за всеки етап изчисление:. Дължини задача, байтове размесват и др
- Няколко нови примери, използващи Java API, включително K-средства и изчислителна пи.
Какво ново във версия 0.7.0:
- Spark 0.7 добавя Python API нарича PySpark <. / Li>
- Spark работни места сега стартират уеб таблото за наблюдение на използването на паметта на всеки разпределени набор от данни (RDD) в програмата.
- Spark вече може да бъде изграден с помощта на Maven в допълнение към SBT.
Какво ново във версия 0.6.1:
- Фиксиран прекалено агресивен съобщение таймаут интервали, които могат да причинят работници да изключете от клъстера.
- Фиксирана бъг в режим на самостоятелна Deploy, че не се излага на хостове към разписание, засягащи HDFS местност.
- Подобрена връзка повторна употреба в разбъркано, което може значително да ускори малки усуквания.
- Фиксирани някои потенциални мъртвите зони в мениджъра на блок.
- Фиксирана бъг получаване IDs провалени домакини от Mesos.
- Няколко подобрения EC2 скрипт, като по-добро управление на спот случаи.
- Произведено местната IP адрес, че Spark се свързва с адаптивни.
- Подкрепа за Hadoop 2 дистрибуции.
- Подкрепа за намиране на Scala на Debian дистрибуции.
Какво ново във версия 0.6.0:.
- Опростени разполагане
- документация на Spark е разширена с нова Ръководство за бърз старт, допълнителни инструкции за внедряване, конфигуриране употреба, тунинг за употреба, и подобрена документация Scaladoc API.
- Нов комуникация мениджър използва асинхронно Java NIO позволява операции разбърквате работят по-бързо, особено при изпращане на големи количества данни или когато работните места са с много задачи.
- Нов мениджър съхранение поддържа по-данните на настройките на ниво съхранение (например дали да се запази набор от данни в паметта, deserialized, на диск и т.н., или дори повторен през възли).
- Засилено отстраняване на грешки.
Коментари не е намерена