Eu estava lendo os modelos lineares de livros da Faraway com R (1ª edição) no último fim de semana. Faraway tinha um capítulo chamado "Estratégia Estatística e Incerteza do Modelo". Ele descreveu (página 158) que ele artificialmente gerado alguns dados usando um modelo muito complicado, então ele perguntou a seus alunos a modelar os dados e comparar os estudantes resultados previstos versus resultados de leitura. Infelizmente, a maioria dos estudantes superestimou os dados dos testes e forneceu valores previstos totalmente errados. Para explicar esse fenômeno, ele escreveu algo muito impressionante para mim:
"A razão pela qual os modelos eram tão diferentes foi que os alunos aplicaram os vários métodos em ordens diferentes. Alguns fizeram seleção de variáveis antes da transformação e outros, o inverso. Alguns repetiram um método depois que o modelo foi alterado e outros não. Revisei as estratégias vários alunos usaram e não encontraram nada claramente errado com o que haviam feito. Um aluno cometeu um erro ao calcular os valores previstos, mas não havia nada obviamente errado no restante. O desempenho nesta tarefa não mostrou qualquer relação com isso nos exames " .
Fui informado de que a precisão da previsão do modelo é o 'critério de ouro' para selecionarmos o melhor desempenho do modelo. Se não me engano, esse também é o método popular usado nas competições do Kaggle. Mas aqui Faraway observou algo de natureza diferente, que o desempenho da previsão do modelo não poderia ter nada a vercom a capacidade do estatístico envolvido. Em outras palavras, se podemos construir o melhor modelo em termos de poder preditivo não é realmente determinado pela experiência que temos. Em vez disso, é determinado por uma enorme "incerteza modelo" (sorte cega?). Minha pergunta é: isso também é verdade na análise de dados da vida real? Ou eu estava confuso com algo muito básico? Como se isso for verdade, a implicação para a análise de dados reais é imensa: sem conhecer o "modelo real" por trás dos dados, não há diferença essencial entre o trabalho realizado por estatísticos experientes / inexperientes: ambos são apenas palpites malucos diante de si. os dados de treinamento disponíveis.
fonte
Respostas:
Eu perguntei ao professor do meu departamento sobre isso. Ele disse francamente que não estava surpreso com isso. Ele sugeriu a seguinte maneira de analisar isso: o que Faraway fez foi apenas um experimento único e não é de surpreender que os resultados pareçam não ter correlação com as notas finais. Mas, se Faraway repetir seu "experimento" 100 vezes com o mesmo grupo de estudantes, ele tem certeza de que os alunos que aprenderam melhor as estatísticas teriam um bom desempenho, semelhante ao intervalo de confiança. Portanto, na opinião dele, a experiência importa, é apenas um experimento social único que não pôde mostrá-lo por causa da incerteza do modelo.
fonte
Os modelos dos alunos estavam quase todos desajustados. Com n pontos de dados, sempre é possível ajustar um polinômio perfeito da ordem n-1. Esse modelo está atrasado, não deixando nada a erro aleatório. Parece que os alunos cometeram erros semelhantes de ajuste, mas presumivelmente com funções diferentes.
Overfitting é um erro que só deve ser cometido pelos alunos. E isso sugere que experiência e educação são qualificações necessárias para modelagem.
fonte