A previsão é o 'critério de ouro' para julgar a capacidade dos estatísticos?

13

Eu estava lendo os modelos lineares de livros da Faraway com R (1ª edição) no último fim de semana. Faraway tinha um capítulo chamado "Estratégia Estatística e Incerteza do Modelo". Ele descreveu (página 158) que ele artificialmente gerado alguns dados usando um modelo muito complicado, então ele perguntou a seus alunos a modelar os dados e comparar os estudantes resultados previstos versus resultados de leitura. Infelizmente, a maioria dos estudantes superestimou os dados dos testes e forneceu valores previstos totalmente errados. Para explicar esse fenômeno, ele escreveu algo muito impressionante para mim:

"A razão pela qual os modelos eram tão diferentes foi que os alunos aplicaram os vários métodos em ordens diferentes. Alguns fizeram seleção de variáveis ​​antes da transformação e outros, o inverso. Alguns repetiram um método depois que o modelo foi alterado e outros não. Revisei as estratégias vários alunos usaram e não encontraram nada claramente errado com o que haviam feito. Um aluno cometeu um erro ao calcular os valores previstos, mas não havia nada obviamente errado no restante. O desempenho nesta tarefa não mostrou qualquer relação com isso nos exames " .

Fui informado de que a precisão da previsão do modelo é o 'critério de ouro' para selecionarmos o melhor desempenho do modelo. Se não me engano, esse também é o método popular usado nas competições do Kaggle. Mas aqui Faraway observou algo de natureza diferente, que o desempenho da previsão do modelo não poderia ter nada a vercom a capacidade do estatístico envolvido. Em outras palavras, se podemos construir o melhor modelo em termos de poder preditivo não é realmente determinado pela experiência que temos. Em vez disso, é determinado por uma enorme "incerteza modelo" (sorte cega?). Minha pergunta é: isso também é verdade na análise de dados da vida real? Ou eu estava confuso com algo muito básico? Como se isso for verdade, a implicação para a análise de dados reais é imensa: sem conhecer o "modelo real" por trás dos dados, não há diferença essencial entre o trabalho realizado por estatísticos experientes / inexperientes: ambos são apenas palpites malucos diante de si. os dados de treinamento disponíveis.

Bombyx mori
fonte
2
+1 boa pergunta. Para oferecer outro ângulo, digamos que um dos analistas conheça o modo verdadeiro - então suas previsões também podem ser ruins! Assim, mesmo sabendo o modelo real, você veria isso. Importante pode ser a observação de Haggerty e Srivinasans, de 1991, na Psychometrika, de que "a [...] prática de concluir que um modelo com maior precisão preditiva é" mais verdadeiro "não é uma inferência válida".
Momo
1
Ainda não olhei o livro, mas a "seleção de variáveis" e a "transformação" já tocam os sinais de alerta. Consulte Algoritmos para seleção automática de modelo e natureza da relação entre preditores e dependentes em regressão . Eu também não confundiria o desempenho do exame dos estudantes de estatística com a capacidade real de trabalho dos estatísticos.
Scortchi - Reinstate Monica
2
Essa informação fornecida por Faraway parece terrivelmente anedótica para ser usada como base para um amplo princípio geral sobre o campo das estatísticas. Eu não gostaria de construir um modelo sobre modelagem preditiva com base em exemplos não reprodutíveis. Também é possível que eles tenham sido escolhidos intencionalmente ou não.
Roland2
3
Uma conclusão logicamente válida que pode ser derivada dessa anedota é que nenhum dos estudantes de Faraway (ainda) adquiriu as habilidades necessárias para ter um bom desempenho em seu teste de previsão. É difícil estabelecer qualquer conexão entre esse resultado e suas especulações sobre o desempenho de estatísticos experientes.
whuber
@ whuber: Eu não penso assim. Concordo que 28 estudantes são um pouco pequenos, mas acho que essa observação real tem sérias implicações. Se Faraway criou o modelo real, e ele prosseguiu com o trabalho de vários alunos, não conseguiu encontrar nenhum erro sério, mas as previsões estão muito distantes do que deveriam ser. Então, isso diz algo sobre a "incerteza do modelo" envolvida, que pelo menos é preciso o trabalho de um analista separado para comparar as diferenças, não importa o quão "experiente" o analista original seja. Eu acho que isso é muito alarmante para mim.
Bombyx mori

Respostas:

1

Eu perguntei ao professor do meu departamento sobre isso. Ele disse francamente que não estava surpreso com isso. Ele sugeriu a seguinte maneira de analisar isso: o que Faraway fez foi apenas um experimento único e não é de surpreender que os resultados pareçam não ter correlação com as notas finais. Mas, se Faraway repetir seu "experimento" 100 vezes com o mesmo grupo de estudantes, ele tem certeza de que os alunos que aprenderam melhor as estatísticas teriam um bom desempenho, semelhante ao intervalo de confiança. Portanto, na opinião dele, a experiência importa, é apenas um experimento social único que não pôde mostrá-lo por causa da incerteza do modelo.

Bombyx mori
fonte
Eu acho essa desculpa hilária. Penso que esta é a razão pela qual as estatísticas estão sendo substituídas por (ou renomeadas como) "ciência de dados". As pessoas estão começando a perceber que a estatística como ensinada nas universidades não é muito boa em prever, e modelos sem poder preditivo são inúteis.
Solha
1
@ Flounderer: Eu acho que isso não é realmente uma desculpa, e o que você escreveu pode não estar muito bem conectado a este caso. Primeiro, na maioria das vezes na vida real, temos um conjunto de testes e um conjunto de treinamento, ao contrário do caso de Faraway, há apenas um conjunto de treinamento disponível. Segundo, se você der uma olhada no modelo de Faraway, ele é altamente não linear, de modo que os métodos de regressão não funcionam muito bem. Portanto, todos os modelos lineares são apenas palpites. A moral do experimento é "todos os modelos estão errados", em vez de "estatística como ensinada nas universidades não é muito boa em prever".
Bombyx mori
@Flounderer: Em outras palavras, acredito que se eu (ou qualquer outra pessoa no fórum) estiver na posição de estudante da Faraway há vinte anos atrás, enfrentando esse conjunto de treinamento estranho, é improvável que façamos melhor usando apenas modelos lineares. Eu não acho que isso seja algo relacionado a "estatística como ensinada nas universidades".
Bombyx mori
1

Os modelos dos alunos estavam quase todos desajustados. Com n pontos de dados, sempre é possível ajustar um polinômio perfeito da ordem n-1. Esse modelo está atrasado, não deixando nada a erro aleatório. Parece que os alunos cometeram erros semelhantes de ajuste, mas presumivelmente com funções diferentes.

Overfitting é um erro que só deve ser cometido pelos alunos. E isso sugere que experiência e educação são qualificações necessárias para modelagem.

Alison weir
fonte
2
"Sobreajustar é um erro que só deve ser cometido pelos alunos" é um padrão bastante alto de se suportar. Modelar é difícil. Talvez algo como "Sobreajuste seja algo que os modeladores aprendam a reconhecer e evitar através da experiência e da educação" esteja mais próximo da verdade?
Matthew Drury