Big Data e análises

Obter e analizar dados do Big Data auxilia na previsão das condições de mercado, na tomada de decisões críticas e na compreensão mais ampla das necessidades de seus clientes.

Saiba mais ›

Logo do Hadoop
Apache Hadoop*

Usando modelos simples de programação, o Apache Hadoop é um framework que permite o processamento distribuído de grandes quantidades de dados difundidos em clusters de computadores. É projetado para escalar de servidores individuais a milhares de máquinas, cada uma oferecendo computação e armazenagem.

Projeto Apache Hadoop


Otimização do Hadoop

Otimizando Java* e Apache Hadoop* para a arquitetura Intel® (PDF)
Uma vez que o Apache Hadoop é baseado em Java*, um dos modos mais eficientes de aumentar seu desempenho é otimizar o próprio Java, para aproveitar dos aprimoramentos da arquitetura Intel.

Desempenho para aplicativos Java* que rodam no servidor (PDF)
Esse documento técnico descreve os principais avanços da arquitetura dos processadores Intel® Xeon® e Intel® Atom™ C2000 mais recentes, que são benéficos para os aplicativos Java, e discute meios rápidos e econômicos de maximizar o desempenho de aplicativos Java.

Análise de Big Data (PDF)
Escale os clusters Apache Hadoop para lidar com o crescente volume, variedade e velocidade dos dados. Aprenda a reduzir a complexidade e o custo total de propriedade (TCO) de seus clusters por usar servidores em menor número, e mais potentes.

Acelerando o desempenho do Hadoop* (Vídeo)
Essa apresentação da Intel® Developer Conference (IDF) de 2014 aborda detalhes técnicos e boas práticas para a otimização de clusters para Big Data e cargas de trabalho no Hadoop*, em plataformas baseadas no processador Intel® Xeon® E5 v3.

Ajustando o Garbage Collection Java para o HBase*
Analisando como ajustar o Garbage Collection (GC) Java para concentrar o HBase em 100% de leituras no YCSB.

Medição quantitativa da performance do Ceph* RBD
Para compreender melhor o desempenho do Ceph e identificar futuras oportunidades de otimizações, conduzimos vários experimentos com diferentes cargas de trabalho e padrões de E/S.
Parte I - Desempenho de IO randômico no Ceph
Parte II - Leitura e escrita sequenciais


Armazenamento Hadoop

Gerenciador de armazenamento virtual
Esse aplicativo de gerenciamento baseada em web para sistemas de armazenamento Ceph cria, gerencia e monitora um cluster Ceph. Ela simplifica a criação e gerenciamento de rotina de um cluster Ceph para administradores de nuvem e de centros de armazenamento e de nuvem.

Provisionamento de servidores físicos com o OpenStack*
Explore os detalhes internos de provisionamento de uma máquina física e instale-a no OpenStack*.

Performance em criptografia Single-Node (Estudo de caso)
Eddie Garcia, Arquiteto de Segurança Chefe na Cloudera, explica como a série Intel® Solid State Drive Pro 3700 pode ser usada para aprimorar o desempenho e a taxa de transferência de E/S.


Logo Apache Spark*
Apache Spark*

O Apache Spark é uma engine geral e rápida para processamento de dados em larga escala, que executa programas até 100 vezes mais rapidamente que no Hadoop MapReduce em memória, ou até dez vezes mais em disco. Escreva rapidamente aplicativos em Java, Scala, Python e R, e combine SQL, streaming e análises complexas.

Obtenha o Apache Spark


Spark: novidades em destaque

Experimentando na prática o Hive-on-Spark no AWS* Cloud
A comunidade Apache Hive está trabalhando para adicionar o Spark como uma engine de execução para o Hive. O trabalho Hive-on-Spark está sendo monitorado pelo HIVE-7292, que é um dos JIRAs mais populares no ecossistema do Hadoop.
Visão geral
Demonstração - Hive no Spark
Jira - HIVE-7292


Otimizando projetos Spark

Gearpump: a engine de streaming de Big Data em tempo real
Geardump é um projeto que acrescenta a capacidade essencial de assimilação de dados ao TAP, tornando-o capaz de lidar com uma variedade de usos que ou envolvem fluxos complexos, ou processamento de baixa latência de muitos tipos de assimilação de streams, que precisam ser tolerantes a falha.
Detalhes do programa
Repositório GitHub

Análises de gráficos de larga escala usando GraphX (PDF)
Leia sobre as lições aprendidas durante a construção de aplicativo de análises gráficas reais em grande escala usando o GraphX, para algumas das maiores organizações e websites do mundo, incluindo tanto as otimizações a nível de algoritmo como a nível de estrutura

Inovação: conduzindo a uma padronização mais sólida para a comunidade
O Apache Spark complementa o atual ecossistema Hadoop por adicionar capacidades de pipeline de dados e APIs fáceis de usar aos dados do Hadoop. Desde seu lançamento em 2009, o Spark tem tido mais de 400 colaboradores, de mais de 50 diferentes empresas.

StreamSQL no Spark (Vídeo)
Essa apresentação irá mostrar a implementação da Intel do StreamSQL com a utilização dos módulos Spark-streaming e Catalyst, o que faz com os os usuários SQL entendam o fluxo do processamento facilmente. Descubra o que é o StreamSQL e quais os benefícios para você.

Baixe a apresentação (PDF)

Construindo aplicativos Spark para o mundo real (PDF)
Explore o que temos aprendido sobre gerenciamento de memória, redes, aprimoramento no E/S do disco e otimização de computações com aplicativos reais Spark.