A divisão dos dados em conjuntos de teste e treinamento é puramente uma coisa de "estatísticas"?

11

Eu sou um estudante de física estudando aprendizado de máquina / ciência de dados, por isso não pretendo que esta pergunta inicie conflitos :) No entanto, uma grande parte de qualquer programa de graduação em física é fazer laboratórios / experimentos, o que significa muitos dados processamento e análise estatística. No entanto, percebo uma diferença acentuada entre a maneira como os físicos lidam com os dados e a maneira como meus livros de ciências / dados estatísticos lidam com os dados.

A principal diferença é que, ao tentar realizar regressões aos dados obtidos de experimentos de física, os algoritmos de regressão são aplicados ao conjunto de dados INTEIRO , não há absolutamente nenhuma divisão nos conjuntos de treinamento e teste. No mundo da física, o R ^ 2 ou algum tipo de pseudo-R ^ 2 é calculado para o modelo com base em todo o conjunto de dados. No mundo das estatísticas, os dados quase sempre são divididos em 80-20, 70-30, etc ... e, em seguida, o modelo é avaliado em relação ao conjunto de dados de teste.

Também existem alguns experimentos físicos importantes (ATLAS, BICEP2, etc ...) que nunca dividem esses dados, por isso estou me perguntando por que há uma diferença tão forte entre a maneira como os físicos / experimentalistas fazem estatísticas e a maneira como os cientistas de dados faça estatísticas.

Thomas Moore
fonte
1
(+1) pergunta muito boa (que não tenho tempo para responder adequadamente). Comentário: A física tem o luxo de "experimentos reais"; condições geralmente controladas / laboratoriais, principalmente resultados / variáveis ​​bem definidos e pressupostos de repetibilidade. Os projetos usuais de Saúde Pública / Econometria / Estatísticas de Pesquisa (para mencionar alguns subcampos óbvios) simplesmente não entendem isso. Conflitos, sazonalidade (dependência do tempo) e geralmente desvios de conceito são comuns nas estatísticas, portanto, essa "divisão de dados" é uma das maneiras óbvias de evitar resultados totalmente tolos. Além disso, nem todos os estimadores são criados igualmente eficientes. :)
usεr11852
3
Você encontrará inúmeras discussões e antecedentes relevantes em um artigo recente de discussão de David Donoho, professor de estatística em Stanford: cursos.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Veja particularmente a discussão sobre "Cultura preditiva" "em contraste com as estatísticas tradicionais.
Gordon Smyth
1
Eu acho que é uma coisa de "previsão na ausência de teoria", que é um pequeno subconjunto de "estatísticas" e um grande subconjunto de aprendizado de máquina.
The Laconic
estatísticos não dividir seus dados ou (p <0,05)
rep_ho
@rep_ho alguns - talvez muitos - estatísticos envolvidos em situações em que a previsão fora da amostra é importante (e alguns o fazem há muito tempo). ideias como validação cruzada e estatísticas de exclusão única (por exemplo) existem há muito tempo. Os estatísticos tendem a não se dividir apenas uma vez, a menos que seja inevitável. Pode depender dos estatísticos com que você fala
Glen_b -Reinstate Monica 2/17/17

Respostas:

6

Nem todos os procedimentos estatísticos se dividem em dados de treinamento / teste, também chamados de "validação cruzada" (embora todo o procedimento envolva um pouco mais do que isso).

Em vez disso, essa é uma técnica usada especificamente para estimar erros fora da amostra ; ou seja, até que ponto seu modelo prevê novos resultados usando um novo conjunto de dados? Isso se torna uma questão muito importante quando você tem, por exemplo, um número muito grande de preditores em relação ao número de amostras no seu conjunto de dados. Nesses casos, é realmente fácil criar um modelo com grande erro dentro da amostra, mas terrível erro fora da amostra (chamado "ajuste excessivo"). Nos casos em que você possui um grande número de preditores e um grande número de amostras, a validação cruzada é uma ferramenta necessária para ajudar a avaliar como o modelo se comportará ao prever novos dados. Também é uma ferramenta importante na escolha entre modelos preditivos concorrentes.

Em outra nota, a validação cruzada é quase sempre usada apenas ao tentar criar um modelo preditivo . Em geral, não é muito útil para modelos quando você está tentando estimar o efeito de algum tratamento. Por exemplo, se você estiver comparando a distribuição da resistência à tração entre os materiais A e B ("tratamento" sendo do tipo material), a validação cruzada não será necessária; enquanto esperamos que nossa estimativa do efeito do tratamento se generalize fora da amostra, para a maioria dos problemas a teoria estatística clássica pode responder a isso (isto é, "erros padrão" de estimativas) mais precisamente do que a validação cruzada. Infelizmente, a metodologia estatística clássica 1para erros padrão não se sustenta no caso de sobreajuste. A validação cruzada geralmente se sai muito melhor nesse caso.

Por outro lado, se você estiver tentando prever quando um material será quebrado com base em 10.000 variáveis ​​medidas que você lança em algum modelo de aprendizado de máquina com base em 100.000 observações, você terá muitos problemas para criar um ótimo modelo sem validação cruzada!

Eu estou supondo que em muitos dos experimentos de física realizados, você geralmente está interessado na estimativa de efeitos. Nesses casos, há muito pouca necessidade de validação cruzada.

1 Pode-se argumentar que os métodos bayesianos com antecedentes informativos são uma metodologia estatística clássica que aborda o sobreajuste. Mas isso é outra discussão.

Nota lateral: embora a validação cruzada tenha aparecido pela primeira vez na literatura estatística e seja definitivamente usada por pessoas que se autodenominam estatísticas, ela se tornou uma ferramenta fundamental necessária na comunidade de aprendizado de máquina. Muitos modelos de estatísticas funcionarão bem sem o uso de validação cruzada, mas quase todos os modelos considerados "modelos preditivos de aprendizado de máquina" precisam de validação cruzada, pois geralmente exigem a seleção de parâmetros de ajuste, o que é quase impossível sem a validação cruzada. -validação.

Cliff AB
fonte
Penso que a sua edição mais recente sobre a distinção de predição / inferência é um pouco complicada e propensa a erros de interpretação (o que eu poderia fazer agora). De qualquer forma, se inferirmos que o material A é mais forte que B, também queremos que isso fique fora da amostra. Além disso, essa idéia ignoraria as abordagens de inicialização / permutações. E o exemplo está um pouco fora; um não é realmente salvo por uma abordagem de trem-teste-divisão, mas pela regularização. np
precisa saber é o seguinte
@ usεr11852: sim, mas é quase impossível escolher penalidades razoáveis ​​de regularização sem validação cruzada (exceto pensar em penalidades como anteriores Bayesianas, mas isso é difícil com modelos de caixa preta!). E embora desejemos que nossos resultados na comparação de A e B não ocorram na amostra, isso normalmente não é um problema que exija ajuste de modelo (como a previsão costuma fazer) e, com o número relativamente baixo de parâmetros, a teoria estatística clássica pode lidar com isso. sem usar a validação cruzada.
Cliff AB
Este é um argumento circular, a regularização usa validação cruzada, mas a validação cruzada é feita para regularização. É por isso que comentei um pouco contra isso, para começar. Penso que a inferência / causalidade estatística se afasta dessa abordagem de ajuste não-modelo (veja, por exemplo, 2016 Johansson et al. "Aprendendo representações para inferência contrafactual" - um artigo tão confuso e bonito). Finalmente, a pesquisa em Física Fundamental, quando apresentada, problemas difíceis também pode contar com as abordagens de ML (por exemplo, o Higgs Boson Machine Learning Challenge ).
precisa saber é o seguinte
@ usεr11852 A regularização não "utiliza" a validação cruzada, mas o seu parâmetro de ajuste para regularização é escolhido usando a validação cruzada. Por exemplo, consulte glmento cv.glmnetpara todo o procedimento em uma boa função compacta.
Cliff AB
1
Além disso, nunca afirmei que a pesquisa em física não possa usar abordagens de ML nem validação cruzada! Eu estava apenas explicando que a validação cruzada é normalmente usada especificamente para escolher entre modelos complexos / parâmetros de ajuste em modelos preditivos, e que em muitos experimentos clássicos de física, a validação cruzada não é necessária. Então, o que os físicos fazem com esses dados não está necessariamente em desacordo com o que os estatísticos fariam com esses dados, que eu acredito que era o cerne da questão do OP.
Cliff AB
3

Sendo químico (analítico) , encontro as duas abordagens: cálculo analítico de figuras de mérito [principalmente para regressão univariada], bem como medição direta de figuras de mérito preditivas.
A divisão de trem / teste para mim é o "irmão mais novo" de um experimento de validação para medir a qualidade da previsão.


Resposta longa:

Os experimentos típicos que realizamos, por exemplo, na graduação em química física usam regressão univariada. As propriedades de interesse geralmente são os parâmetros do modelo, por exemplo, a constante de tempo ao medir a cinética da reação, mas às vezes também previsões (por exemplo, calibração linear univariada para prever / medir algum valor de interesse).
Essas situações são muito benignas em termos de não adaptação excessiva: geralmente há um número confortável de graus de liberdade depois que todos os parâmetros são estimados e são usados ​​para treinar (como na educação) os alunos com confiança clássica ou cálculo do intervalo de previsão e erro clássico propagação - eles foram desenvolvidos para essas situações. E mesmo que a situação não seja inteiramente semelhante a um livro didático (por exemplo, eu tenho estrutura nos meus dados, por exemplo, na cinética, eu esperaria que os dados fossem melhor descritos pela variação entre as execuções da reação + variação entre as medições em uma execução do que por um abordagem simples de apenas uma variância), normalmente posso ter execuções suficientes do experimento para ainda obter resultados úteis.

No entanto, na minha vida profissional, trato de conjuntos de dados espectroscópicos (tipicamente 100s a 1000s de variáveis ) e, além disso, com conjuntos bastante limitados de casos independentes (amostras) . Freqüentemente , usamos a regularização da qual nem sempre é fácil dizer quantos graus de liberdade usamos e, além disso, tentamos pelo menos compensar um pouco o pequeno usando (grande) número (grande) de medidas quase repetidas - o que nos deixa com um efetivo desconhecido . Sem saber oun n < p n n n d fpnn<pnnndf, as abordagens clássicas não funcionam. Mas como estou fazendo predições, sempre tenho uma possibilidade muito direta de medir a capacidade preditiva do meu modelo: faço predições e as comparo com valores de referência.

Essa abordagem é realmente muito poderosa (embora dispendiosa devido ao aumento do esforço experimental), pois me permite sondar a qualidade preditiva também para condições que não foram cobertas nos dados de treinamento / calibração. Por exemplo, eu posso medir como a qualidade preditiva se deteriora com a extrapolação (a extrapolação também inclui, por exemplo, medidas feitas, digamos, um mês após a aquisição dos dados de treinamento), posso investigar a robustez contra fatores de confusão que eu espero que sejam importantes, etc. Em outras palavras , podemos estudar o comportamento de nosso modelo, assim como estudamos o comportamento de qualquer outro sistema: investigamos certos pontos ou o perturbamos e observamos a mudança na resposta do sistema etc.

Eu diria que quanto mais importante a qualidade preditiva (e maior o risco de sobreajuste), mais tendemos a preferir medições diretas da qualidade preditiva do que números analiticamente derivados. (É claro que poderíamos ter incluído todos esses fatores de confusão também no design do experimento de treinamento). Algumas áreas, como o diagnóstico médico, exigem a realização de estudos de validação adequados antes que o modelo seja "liberado" em pacientes reais.

A divisão de trem / teste (seja de espera * ou de validação cruzada ou de inicialização automática ou ...) facilita esse passo. Salvamos o experimento extra e não extrapolamos (apenas generalizamos para prever casos independentes desconhecidos da mesma distribuição dos dados de treinamento). Eu descreveria isso como uma verificação e não uma validação (embora a validação esteja profundamente na terminologia aqui). Esse é geralmente o caminho pragmático a seguir, se não houver exigências muito altas sobre a precisão das figuras de mérito (elas podem não precisar ser conhecidas com muita precisão em um cenário de prova de conceito).

* não confunda uma única divisão aleatória no trem e teste com um estudo adequadamente projetado para medir a qualidade da previsão.

cbeleites descontentes com o SX
fonte
2
+1 por apontar a diferença na verificação e validação.
meteorologista