Resumo de Noções de Big Data, Banco de Dados NoSQL e Apache Hadoop
Descrição do Resumo:
Tudo isso é relativamente novo. Pois, agora, cada usuário e organização pode armazenar as informações em formato digital, diferentemente de como acontecia algumas décadas atrás. Portanto, para lidar com esse aumento exponencial de dados, foi criado um mecanismo e abordagem para lidar com tudo isso, o chamado Big Data.
NoSQL é uma abreviação de Not only SQL, ou seja, “não somente SQL”. Esse termo foi cunhado para definir os novos modelos de armazenamento de dados, criados para atenderem às necessidades de flexibilidade, disponibilidade, escalabilidade e desempenho das aplicações inseridas no contexto de Big Data.
O Apache Hadoop é um framework open source para o armazenamento e processamento de dados em larga escala. Ele oferece como ferramentas principais uma implementação do modelo MapReduce, responsável pelo processamento distribuído e o Hadoop Distribuited File System (HDFS), para armazenamento de grandes conjuntos de dados, também de forma distribuída.
Neste resumo, iremos apresentar os conceitos básicos sobre Big Data, Banco de Dados NoSQL, Apache Hadoop e Pareamento de Dados (Record Linkage). Ao final, resolveremos algumas questões de concursos públicos sobre estes assuntos.
Bons estudos,
Equipe Resumos de TI
Conteúdo do Resumo:
- Introdução
- Conceito de Big Data
- Tipos de Dados
- Dados Estruturados
- Dados Semiestruturados
- Dados Não Estruturados
- Conceitos dos cinco Vs?
- Volume
- Variedade
- Velocidade
- Valor
- Veracidade
- Big Data Analytics
- Análise Descritiva
- Análise Diagnóstica
- Análise Preditiva
- Análise Prescritiva
- Resumo das categorias de Analytics
- Fluxo do Big Data
- Ingestão
- Processamento
- Disponibilização
- Exemplo de Fluxo de Big Data com Ecossistema Hadoop
- Pipeline de Dados
- O que é um Pipeline de Dados?
- Principais Etapas
- Componentes
- Exemplo de um Pipeline de Dados
- Orquestração em Pipeline de Dados
- Funções da orquestração
- Ferramentas de Orquestração
- Integração em Pipeline de Dados
- Funções da Integração
- Ferramentas de Integração
- O que é um Pipeline de Dados?
- Processamento Distribuído
- Processamento em Batch (Lote)
- Processamento em Streaming (Tempo Real)
- Ferramentas e Tecnologias Especializadas
- Conceitos de Data Lake
- Estrutura e Componentes do Data Lake
- Vantagens de um Data Lake
- Comparação entre Data Lake e Data Warehouse
- ETL x ELT
- ETL (extração, transformação e carregamento)
- ELT (extração, carregamento e transformação)
- Armazenamento de Dados
- Banco de Dados NoSQL
- Modelo orientado a Chave-Valor
- Modelo orientado a Documentos
- Modelo orientado a Colunas
- Modelo orientado a Grafos
- Resumo dos aspectos dos Modelos NoSQL
- Banco de Dados NoSQL
- Arquitetura do Ecossistema Apache Hadoop
- Modos de Operação
- Componentes Hadoop
- Sqoop
- Flume
- Kafka
- HDFS
- HBase
- Yarn
- MapReduce
- Apache Pig (Scripting)
- Hive (SQL Query)
- Oozie (Workflow)
- Zookeeper (Coordination)
- Spark
- Componentes
- Arquitetura
- Arquiteturas de Big Data
- Arquitetura Lambda
- Arquitetura Kappa
- Arquitetura IoT
- Pareamento de Dados (Record Linkage – RL)
- Introdução
- Definição de RL
- Classificação
- RL Determinístico
- RL Probabilístico
- Processo e Etapas
- Aplicações de RL