✆  55 (11) 3382-1503    |   ⌧  comercial@infomev.com.br       

Cursos / Data Preparation – Big Data
INTRODUÇÃO AO PRINCIPAIS COMPONENTES
DO HADOOP BIG DATA

Carga horária:  16 HORAS

Descrição:

Neste curso, além da aprendizagem e uso de banco de dados não relacionais e NoSQL, o aluno obterá um entendimento completo da arquitetura do Apache Kafka e como ele adotou princípios comprovados de design de sistemas distribuídos que permitem que ele seja escalonado e executado de forma confiável. Em seguida, dividiremos essa arquitetura em componentes individuais e o aluno aprenderá sobre cada uma delas detalhadamente. Por fim, você verá os componentes em ação.

Serão apresentados também, os conceitos de computação distribuída, Hadoop e MapReduce e, em seguida, entrar em grandes detalhes no Apache Hive. O curso apresenta alguns desafios que você pode enfrentar ao resolver problemas reais de produção e como o Apache Hive torna essa tarefa mais fácil de realizar.

Por fim, depois de entender a estrutura MapReduce do Hadoop para processamento em lote, será verificado que as demandas modernas de processamento de big data superaram essa estrutura. É aí que o Apache Spark entra em ação, ostentando velocidades 10-100x mais rápidas do que o Hadoop e estabelecendo o recorde mundial em classificação em grande escala. A abstração geral do Spark significa que ele pode se expandir além do simples processamento em lote, tornando-o capaz de coisas como algoritmos extremamente rápidos e iterativos.

Módulo: BANCO DE DADOS NÃO RELACIONAIS

Limitações do modelo relacional e da linguagem SQL.

Módulo: NoSQL

Armazenamento baseado em Chave-Valor; Armazenamento baseado em Documentos; Armazenamento baseado em XML.

Módulo: KAFKA

Introdução do Kafka; Conhecendo a arquitetura do Apache Kafka; Kafka e seus componentes: Tópicos, Partições e Brokers; Consumer Offset; Kafka CLI; Criação de um tópico; Listando os tópicos; Kafka Producer; Kafka Consumer; Replicação; Demonstração: Utilização do Kafka para produzir e consumir mensagens.

Módulo: HIVE QUERY LANGUAGE

  • Introdução ao Hadoop ;
  • Sistema de arquivos Hadoop (HDFS);
  • MapReduce; Introdução ao Hive;
  • Arquitetura Hive;
  • Princípios do Hive – Esquema on Read;
  • Princípios do Hive – The Hive Warehouse;
  • Introdução ao Hive Query Language
  • Criação de bancos de dados e tabelas com HiveQL;
  • Carregando dados para o Hive e gerenciado tabelas externas.

Módulo: HIVE QUERY LANGUAGE

  • Introdução ao Hadoop ;
  • Sistema de arquivos Hadoop (HDFS);
  • MapReduce; Introdução ao Hive;
  • Arquitetura Hive;
  • Princípios do Hive – Esquema on Read;
  • Princípios do Hive – The Hive Warehouse;
  • Introdução ao Hive Query Language
  • Criação de bancos de dados e tabelas com HiveQL;
  • Carregando dados para o Hive e gerenciado tabelas externas.

Módulo: SPARK

  • Por que Spark?;
  • Spark Core;
  • Componentes do Spark;
  • O que é um RDD?;
  • Transformando dados;
  • Ações e propriedade associativa;

Exemplo prático:

  • Trabalhando com dados; Shell iterativo;
  • Dataframes.
Tem interesse?
Entre em contato com a nossa Equipe

Erro: Formulário de contato não encontrado.