O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes volumes de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona.
Centralizado e centralizado.
Distribuído e centralizado.
Distribuído e distribuído.
Centralizado e distribuído.
Mestre e escravo.
Soluções para a tarefa
- ANÁLISE DE DADOS EM PYTHON COM PANDAS
1.No contexto de Coleta de Dados, o que podemos afirmar sobre Dados Primários:
I - São dados obtidos em primeira mão pelo cientista de dados ou pelo analista de dados
II - São dados que precisam ser pré-processados para análise, e serão feitos exclusivamente no primeiro momento pelo dono dos dados, o analista em questão
III - São obtidos através de softwares de monitoramento de logs, surveys, e bancos de dados
Analise as frases listadas e assinale a alternativa correta.
R: As opções I, II, e III estão corretas.
2.A biblioteca pandas é poderosa e de grande valia para a vida de um cientista de dados. Sobre ela podemos afirmar que:
I - O nome Pandas se refere a dados em painel ou panel data
II - O DataFrame é o coletivo de listas (lists)
III - É possível criarmos DataFrames a partir de praticamente qualquer estrutura de dados, principalmente CSVs, Excels, e JSONsAnalise as frases listadas e assinale a alternativa correta.
R: Apenas I e III.
3. Luís foi contratado recentemente para trabalhar em uma empresa de consultoria de análise de dados. O projeto no qual foi alocado já havia começado, e os colegas de Luís lhe disseram que estavam preparando o conjunto de dados para poder passar os mesmos por um modelo de árvore de decisão. Já que especificamente os colegas de Luís estão removendo dados faltantes, em qual etapa do processo de KDD, Luís se encontra:
R: Pré-Processamento .
4. Qual o tipo de método nos permite visualizar a árvore de decisão na biblioteca Scikit-Learn?
R: plot_tree
5. O sistema de arquivos distribuídos do Hadoop, conhecido como HDFS, foi idealizado para trabalhar com grandes volumes de dados. Selecione a opção correta que apresenta o paradigma como o HDFS funciona.
R: Mestre e escravo.
6. A respeito dos componentes do ecossistema do Hadoop, selecione a opção correta que apresenta o componente responsável pelo gerenciamento dos clusters.
R: Zookeeper
7. Selecione a opção a respeito da computação em nuvem.
R: é um conjunto de tecnologias que disponibilizam sistemas e recursos na internet
8. Em relação às aplicações de Internet das coisas, selecione a opção correta sobre os seus objetivos.
R: Obter dados que sirvam como base na tomada de decisão
9. A escolha adequada de uma linguagem de programação é fundamental para a maximização dos resultados almejados. Nesse sentido, selecione a opção que contém a linguagem de programação mais adequada para desenvolver aplicações para o Spark.
R: Scala
10. O MapReduce é uma técnica de computação distribuída considerada extremamente eficiente para o processamento de dados, desempenhando papel fundamental no Spark. Em relação ao MapReduce, selecione a opção correta.
R: Pode ser aplicada para projetos que envolvam grandes volumes e variedade de dados.
Resposta:
mestre e escravo
Explicação:
vem com o pai