Informática, perguntado por Usuário anônimo, 7 meses atrás

Observe o trecho de código abaixo

import numpy as np
from pyspark import SparkContext
spark_contexto = SparkContext()
a = np.array([1, 5, 1, 6, 4, 7, 7])
teste = spark_contexto.parallelize(a)
Selecione a opção correta a respeito dele.

A linha "spark_contexto.parallelize(a)" aplica a técnica MapReduce para processar o vetor "a".

A execução do trecho de código vai gerar um erro.

Certo
A variável "teste" corresponde a um RDD.

Errado
A utilização do SparkContext é opcional.

O objetivo do trecho de código é contar a quantidade de ocorrências dos valores do vetor "a".

Soluções para a tarefa

Respondido por nielsonvss

Resposta:

A variável "teste" corresponde a um RDD.

Explicação:

Gabarito Estácio

Respondido por yancarvalho3

Observando o trecho do código escrito na linguagem de programação Python, é possível perceber que a variável "teste" corresponde a um RDD, logo a alternativa correta é a C.

O que é um RDD em Python?

O RDD é a sigla para Resilient Distributed Dataset, é uma abstração de dados no Apache Spark, uma plataforma de computação distribuída para Big Data. O RDD é uma coleção imutável de objetos particionados que podem ser processados em paralelo em vários nós.

O RDD é uma das principais estruturas de dados utilizadas no Spark para realizar processamento de Big Data de forma escalável, rápida e eficiente.

Saiba mais sobre programação aqui: https://brainly.com.br/tarefa/52559271

#SPJ2

Anexos: