Questão de Estatística Aplicada
- Em um estudo foi utilizada, erroneamente, uma amostra de apenas 3 observações para se estimarem os coeficientes de uma equação de regressão. Obteve-se R2 = 0,96. A título de “brincadeira”, foi dito ao analista responsável que, se ele quisesse melhorar os resultados, bastaria eliminar uma observação e ficar com apenas n = 2. Faça uma crítica sobre o uso de amostras muito pequenas em modelos de regressão. Discuta também o impacto que amostras pequenas podem exercer sobre a significância estatística do intercepto (parâmetro α).
Por favor, me ajudem!!
Soluções para a tarefa
Resposta:
Olá bom dia!
Amostras pequenas geram resultados errôneos nos modelos de regressão.
Isto porque a análise dos resíduos (diferença entre os valores observados e os estimados) é utilizada na análise da variância para validação do modelo de regressão estimado.
Sabemos que a variância é a razão dos desvios dos valores observados em sua média.
Para amsotras muito pequenas, a média dificilmente será um valor representativo da polulação.
Observe o exemplo de dois conjuntos de dados:
Turma com 30 alunos. Deseja-se avaliar a média das notas. São selecionados dois grupos de 3 alunos (amstra) para se analisar o desempenho da turma. Os selecionados foram:
Grupo 1 Notas
Aluno 1 2
Aluno 2 6
Aluno 3 10
Grupo 2
Aluno 3 6
Aluno 4 6
Aluno 5 9
Observe que amostras de 3 nos dois grupos, mesmo sem cálculos, proporcionaram médias diferentes mas com variabilidade grande. A significância, (nível de erro conhecido) está diretamante afetada pela grande dispersão dos dados, não por conta da real distribuição deles, mas pela variabilidade alta em função do tamanho da amostra.
Se juntarmos os dois grupos como uma única amostra, conseguimos um nível p de significância maior.
Portanto um tamanho de amostra adequado deve levar em consideração, não um tamanho grande, mas um tamanho onde os níveis de variabilidade se mostrem constantes entre as várias amostras possíveis.