A ideia da análise adaptativa dos dados é que você altere seu plano para analisar os dados à medida que aprende mais sobre eles. No caso da análise exploratória de dados (EDA), geralmente é uma boa ideia (você geralmente procura padrões imprevistos nos dados), mas, para um estudo confirmatório, isso é amplamente aceito como um método de análise muito defeituoso (a menos que todos as etapas são claramente definidas e adequadamente planejadas em avançado).
Dito isto, a análise adaptativa dos dados é tipicamente quantos pesquisadores realmente conduzem suas análises, para grande consternação dos estatísticos. Como tal, se alguém pudesse fazer isso de uma maneira estatística válida, isso revolucionaria a prática estatística.
O seguinte artigo da Science afirma ter encontrado um método para fazer isso (peço desculpas pelo paywall, mas se você estiver em uma universidade, provavelmente terá acesso): Dwork et al, 2015, O material reutilizável: Preservando a validade na análise de dados adaptativa .
Pessoalmente, sempre fui cético em relação a artigos de estatística publicados na Science , e este não é diferente. De fato, depois de ler o artigo duas vezes, incluindo o material suplementar, não consigo entender (de maneira alguma) por que os autores afirmam que seu método impede o excesso de ajuste.
Meu entendimento é que eles têm um conjunto de dados de validação, que serão reutilizados. Eles parecem reivindicar "distorcendo" a saída da análise confirmatória no conjunto de dados de validação; o excesso de ajuste será impedido (vale a pena notar que a distorção parece estar apenas adicionando ruído se a estatística calculada nos dados de treinamento estiver suficientemente longe da estatística calculada nos dados de validação ). Até onde eu sei, não há nenhuma razão real para impedir o ajuste excessivo.
Estou enganado sobre o que os autores estão propondo? Existe algum efeito sutil que estou ignorando? Ou a Science endossou a pior prática estatística até o momento?
Respostas:
Há uma postagem de blog pelos autores que descreve isso em alto nível.
Para citar o início dessa postagem:
Não consigo ver como a técnica deles resolve esse problema. Portanto, em resposta à sua pergunta, acredito que eles não abordam o Jardim dos Caminhos da Bifurcação e, nesse sentido, sua técnica levará as pessoas a um falso senso de segurança. Não muito diferente de dizer "usei a validação cruzada" acalma muitos - que usavam CV não aninhado - em uma falsa sensação de segurança.
Parece-me que a maior parte da postagem do blog aponta para a técnica deles como uma melhor resposta para impedir que os participantes de uma competição no estilo Kaggle subam no gradiente do conjunto de testes. O que é útil, mas não aborda diretamente os caminhos de bifurcação. Parece que tem o sabor do Wolfram e da New Science do Google, onde grandes quantidades de dados assumem o controle. Essa narrativa tem um histórico misto e sou sempre cético em relação à magia automatizada.
fonte
Tenho certeza de que estou simplificando demais essa técnica diferencial de privacidade aqui, mas a ideia faz sentido em um nível alto.
Quando você obtém um algoritmo para gerar bons resultados (uau, a precisão do meu conjunto de testes realmente melhorou), você não quer chegar à conclusão imediatamente. Você deseja aceitá-lo apenas quando a melhoria é significativamente maior que o algoritmo anterior. Essa é a razão para adicionar ruído.
EDIT: Este blog possui boas explicações e códigos R para demonstrar a eficácia do adicionador de ruído, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
fonte
A alegação de que a adição de ruído ajuda a evitar o excesso de ajuste realmente retém a água aqui, pois o que eles estão realmente fazendo é limitar a reutilização do material . O método deles realmente faz duas coisas: limita o número de perguntas que podem ser feitas no holdout e quanto de cada uma das respostas revela sobre os dados do holdout.
O coração de seu método é uma relação entre estabilidade algorítmica e super adaptação, que remonta ao final da década de 1970 (Devroye e Wagner 1978). Aproximadamente, diz
Atualmente, existem alguns artigos analisando como diferentes procedimentos de adição de ruído controlam o overfitting. Um relativamente legível é o de Russo e Zou ( https://arxiv.org/abs/1511.05219 ). Alguns trabalhos de acompanhamento mais recentes sobre o trabalho inicial de Dwork et al. Também pode ser útil olhar. (Declaração de exoneração de responsabilidade: tenho dois artigos sobre o assunto, o mais recente sobre a conexão com o teste de hipótese adaptativa: https://arxiv.org/abs/1604.03924 .)
Espero que tudo ajude.
fonte
Eu me oponho à sua segunda frase. A ideia de que um plano completo de análise de dados deve ser determinado com antecedência é injustificada, mesmo em um cenário em que você está tentando confirmar uma hipótese científica preexistente. Pelo contrário, qualquer análise de dados decente exigirá alguma atenção aos dados reais que foram adquiridos. Os pesquisadores que acreditam de outra forma são geralmente pesquisadores que acreditam que o teste de significância é o começo e o fim da análise de dados, com pouca ou nenhuma função para estatística descritiva, plotagens, estimativa, previsão, seleção de modelo etc. Nesse cenário, o requisito de fixar antecipadamente os planos analíticos faz mais sentido, porque as formas convencionais pelas quais p-os valores calculados requerem que o tamanho da amostra e os testes a serem realizados sejam decididos antes da visualização de quaisquer dados. Esse requisito prejudica o analista e, portanto, é uma das muitas boas razões para não usar testes de significância.
Você pode argumentar que deixar o analista escolher o que fazer depois de ver os dados permite o super ajuste. Sim, mas um bom analista mostra todas as análises que eles conduziram, diz explicitamente quais informações nos dados foram usadas para tomar decisões analíticas e usa métodos como validação cruzada de forma apropriada. Por exemplo, geralmente é bom recodificar variáveis com base na distribuição de valores obtida, mas escolher para algumas análises os três preditores em 100 que têm a associação observada mais próxima da variável dependente significa que as estimativas de associação serão positivas tendencioso, pelo princípio da regressão à média. Se você deseja fazer a seleção de variáveis em um contexto preditivo, precisa selecionar variáveis dentro das suas dobras de validação cruzada ou usar apenas os dados de treinamento.
fonte