Большие объемы данных и аналитика

Сбор и анализ «больших объемов данных» помогает прогнозировать развитие рыночных условий, принимать важные решения и лучше понимать требования ваших клиентов.

Подробнее ›

Логотип Hadoop
Apache Hadoop*

Использующая простые модели программирования, инфраструктура Apache Hadoop, обеспечивает распределенную обработку больших наборов данных в кластерах компьютеров. Она создана для расширения систем, содержащих единичные серверы, до тысяч компьютеров, каждый из которых используется для вычислительных целей и хранения данных.

Проект Apache Hadoop


Оптимизация Hadoop

Оптимизация Java* и Apache Hadoop* для архитектуры Intel® (PDF)
Поскольку инфраструктура Apache Hadoop создана на основе Java*, одним из наиболее эффективных способов повышения производительности является оптимизация самой среды Java для использования преимуществ усовершенствований архитектуры Intel.

Производительность серверных приложений Java* (PDF)
В этих материалах представлены важные усовершенствования архитектуры новейших процессоров Intel® Xeon® и Intel® Atom™ C2000, которые способны выгодно сказаться на работе приложений Java. Здесь также обсуждаются быстрые и экономичные способы повышения производительности приложений Java.

Анализ больших объемов данных (PDF)
Наращивайте кластеры Apache Hadoop для управления увеличивающимися объемами, разнообразием и скоростью обработки данных. Узнайте, как снизить сложность и общую стоимость владения ваших кластеров, используя меньшее количество более производительных серверов.

Повышение производительности Hadoop* (видео)
В данной презентации с конференции 2014 Intel® Developer Conference (IDF) представлена техническая информация и наилучшие методы оптимизации обработки больших объемов данных в кластерах и рабочая нагрузка Hadoop* на платформы на базе процессоров Intel® Xeon® E5 v3.

Настройка коллекции Java Garbage для HBase*
Узнайте, как выполнить настройки коллекции Java Garbage для HBase с направлением на 100% запросов на чтение YCSB.

Оценка производительности Ceph* RBD в количественном выражении
Чтобы лучше понять факторы производительности Ceph и идентифицировать возможности будущей оптимизации, мы проводим множество экспериментов с различными рабочими нагрузками и моделями ввода-вывода.
Часть I — Случайная производительность ввода-вывода на системах Ceph
Часть II — Последовательное чтение/запись


Функции Hadoop для хранения данных

Virtual Storage Manager
Это веб-приложение управления для систем хранения данных Ceph используется для управления и мониторинга кластеров Ceph. Оно позволяет упростить создание и повседневное обслуживание кластеров Ceph для администраторов облачных систем и центров обработки данных.

Подготовка физических серверов с помощью OpenStack*
Ознакомьтесь с аспектами подготовки физических компьютеров с помощью OpenStack*.

Производительность шифрования на одном узле (пример использования)
Эдди Гарсия (Eddie Garcia), главный архитектор решений безопасности в компании Cloudera, рассказывает, как система хранения данных на основе твердотельных накопителей Intel® Pro 3700 может использоваться для ускорения операций ввода-вывода и повышения производительности.


Логотип Apache Spark*
Apache Spark*

Apache Spark — это производительный и основной движок обработки масштабно-распределенных данных, выполняющий программы в памяти в 100 быстрее, чем Hadoop MapReduce или в десять раз быстрее, чем их запуск с диска. Создавайте приложения быстрее с помощью Java, Scala, Python и R, и комбинируйте аналитику обрабатываемой информации из SQL, потоков данных и сложных процессов.

Получить Apache Spark


Дайджест новостей Spark

Предварительный обзор Hive-on-Spark в облачной среде AWS*
Сообщество пользователей Apache Hive работает для добавления Spark в качестве системы запуска для Hive. Проект "Hive on Spark" управляется в системе HIVE-7292, которая является одной из самых популярных JIRA-систем в экосистеме Hadoop.
Обзор
Демонстрация — Hive on Spark
Jira — HIVE-7292


Оптимизация проектов Spark

Gearpump - приложение передачи потоков больших объемов данных в режиме реального времени
Gearpump — это проект, используемый для добавления функции встраивания ключей в Trusted Analytics Platform, а также возможности управления различными методами использования, связанными с усложненными последовательностями действий или сверхбыстрой обработкой различных обрабатываемых потоков данных, что необходимо для повышения отказоустойчивости систем.
Информация о программе
Ресурс GitHub

Анализ масштабных графических образов с помощью GraphX (PDF)
Ознакомьтесь с опытом, приобретенным при создании признанных приложений анализа больших графических объектов с помощью GraphX по заказу крупных организаций и веб-сайтов с использованием оптимизаций на уровнях алгоритмов и инфраструктур.

Инновации: укрепление стандартов развития сообществ
Apache Spark расширяет существующую экосистему Hadoop, добавляя в нее простые в использовании прикладные программные интерфейсы и функции последовательной обработки данных. После запуска в 2009 году к Spark примкнули более 400 представителей из более чем 50 компаний.

StreamSQL на системе Spark (видео)
В этой презентации демонстрируется реализация Intel для StreamSQL с использованием решений Spark для потоковой обработки данных и модулей Catalyst, что позволяет упростить процесс обработки данных для пользователей SQL. Ознакомьтесь с назначением StreamSQL и ее преимуществами.

Загрузить презентацию (PDF)

Создание признанных приложений Spark (PDF)
Познакомьтесь ближе с тем, что мы изучили об управлении памятью, сетях, улучшении процессов ввода-вывода и оптимизации известных приложений Spark.