Observe o trecho de código abaixo
import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.
A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".
A execução do trecho de código vai gerar um erro.
Certo
A variável "teste" corresponde a um RDD.
Errado
A utilização do SparkContext é opcional.
O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".
Soluções para a tarefa
Respondido por
5
Resposta:
A variável "teste" corresponde a um RDD.
Explicação:
Gabarito Estácio
Respondido por
0
Observando o trecho do código escrito na linguagem de programação Python, é possível perceber que a variável "teste" corresponde a um RDD, logo a alternativa correta é a C.
O que é um RDD em Python?
O RDD é a sigla para Resilient Distributed Dataset, é uma abstração de dados no Apache Spark, uma plataforma de computação distribuída para Big Data. O RDD é uma coleção imutável de objetos particionados que podem ser processados em paralelo em vários nós.
O RDD é uma das principais estruturas de dados utilizadas no Spark para realizar processamento de Big Data de forma escalável, rápida e eficiente.
Saiba mais sobre programação aqui: https://brainly.com.br/tarefa/52559271
#SPJ2
Anexos:
Perguntas interessantes
História,
5 meses atrás
Direito,
5 meses atrás
Sociologia,
5 meses atrás
Matemática,
5 meses atrás
Ed. Física,
11 meses atrás