Lógica, perguntado por karenvictoriateixeir, 5 meses atrás

Conforme Almeida, Tokumoto, Freitas (2022), na aprendizagem por reforço, o agente aprende a partir de uma recompensa (ou seja, o reforço). Diferente dos outros tipos de aprendizagem, neste não há um conjunto de treinamento, rotulado ou não. Este tipo de aprendizagem procura detectar como devem ser as ações em ambientes predeterminados. Esta aprendizagem realiza a interação entre dois elementos de forma que o ambiente é o local onde o agente de aprendizagem interage ao tomar suas decisões. Quando o agente de aprendizagem toma uma decisão:


I) se as ações estão corretas, o agente recompensa o ambiente;


CONTUDO,


II) o agente aplica uma penalidade ao ambiente, sinalizando que as ações são negativas.


ALMEIDA, Iara Carnevale de; TOKUMOTO, Ronie Cesar; FREITAS, Janaína Aparecida de. ​Técnicas de Machine Learning (Aprendizagem de Máquina). Maringá - PR.: Unicesumar, 2021.


A respeito dessas asserções, assinale a opção correta:

Alternativas
Alternativa 1:
As asserções I e II são proposições falsas.

Alternativa 2:
A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.

Alternativa 3:
A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.

Alternativa 4:
As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I.

Alternativa 5:
As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I.

Soluções para a tarefa

Respondido por robertosc
0

Resposta:

Alternativa 4

Explicação:

Alternativa 4:

As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Conforme página 25 do livro.


assiswd: A página do livro está correta mas a resposta correta é a I, pois são falsas o ambiente recompensa o agente
Respondido por kiko84
2

Resposta:

Alternativa 1

Explicação:

Quem aplica a penalidade ou recompensa é o ambiente e não o agente. O Agente seria o algoritmo que esta adquirindo o aprendizado.

Perguntas interessantes