Muitas vezes me deparei com avisos informais contra "espionagem de dados" (aqui está um exemplo divertido ), e acho que tenho uma ideia intuitiva do que isso significa e por que pode ser um problema.
Por outro lado, "análise exploratória de dados" parece ser um procedimento perfeitamente respeitável em estatística, pelo menos a julgar pelo fato de que um livro com esse título ainda seja reverenciado como citado como clássico.
Na minha linha de trabalho, muitas vezes me deparo com o que me parece um desenfreado "escaneamento de dados", ou talvez seja melhor descrito como " tortura de dados ", embora aqueles que o fazem pareçam ter a mesma atividade que uma exploração inteiramente razoável e sem problemas. "
Aqui está o cenário típico: experimentos caros são realizados (sem muita reflexão dada à análise subseqüente), os pesquisadores originais não conseguem discernir prontamente uma "história" nos dados coletados, alguém é trazido para aplicar alguma "magia estatística" e quem , depois de fatiar e picar os dados de todas as formas, finalmente consegue extrair dele uma "história" publicável.
Obviamente, geralmente há alguma "validação" lançada no relatório / artigo final para mostrar que a análise estatística está em alta, mas a flagrante atitude de publicar a todo custo por trás disso tudo me deixa em dúvida.
Infelizmente, meu entendimento limitado dos prós e contras da análise de dados me impede de ir além de tão vagas dúvidas, de modo que minha resposta conservadora é basicamente desconsiderar essas descobertas.
Minha esperança é que não apenas uma melhor compreensão da distinção entre exploração e bisbilhotar / torturar, mas também, e mais importante, uma melhor compreensão dos princípios e técnicas para detectar quando essa linha foi cruzada, me permita avaliar tais descobertas em de uma maneira que possa explicar razoavelmente um procedimento analítico abaixo do ideal e, assim, ser capaz de ir além da minha resposta atual e simplória de descrença geral.
EDIT: Obrigado a todos pelos comentários e respostas muito interessantes. A julgar pelo conteúdo, acho que talvez não tenha explicado minha pergunta suficientemente bem. Espero que esta atualização esclareça as questões.
Minha questão aqui não diz respeito tanto o que eu deveria fazer para evitar torturar os meus dados (embora esta é uma pergunta que também me interesses), mas sim: como devo considerar (ou avaliar) os resultados que eu sei para um fato de ter chegado através de tal "tortura de dados".
A situação fica mais interessante naqueles casos (muito mais raros) em que, além disso, estou em posição de expressar uma opinião sobre essas "descobertas" antes de serem submetidas à publicação.
Nesse momento, o máximo que posso fazer é dizer algo como "Não sei quanta credibilidade posso dar a essas descobertas, dado o que sei sobre as suposições e procedimentos que foram usados para obtê-las". Isso é vago demais para valer a pena dizer. Desejar ir além dessa imprecisão foi a motivação para o meu post.
Para ser justo, minhas dúvidas aqui são baseadas em métodos estatísticos mais do que aparentemente questionáveis. De fato, eu vejo o último mais como conseqüência do problema mais profundo: uma combinação de uma atitude descuidada em relação ao projeto experimental, juntamente com um compromisso categórico de publicar os resultados como estão (ou seja, sem outras experiências). Obviamente, os projetos de acompanhamento são sempre previstos, mas é simplesmente fora de questão que nem um único documento saia de, por exemplo, "uma geladeira cheia de 100.000 amostras".
As estatísticas são apresentadas apenas como um meio de atingir esse objetivo supremo. A única justificativa para se apegar às estatísticas (por mais secundárias que sejam em todo o cenário) é que um desafio frontal à suposição de "publicação a todo custo" é simplesmente inútil.
De fato, só consigo pensar em uma resposta eficaz em tais situações: propor algum teste estatístico (não exigindo experimentação adicional) que realmente teste a qualidade da análise. Mas eu simplesmente não tenho as estatísticas nas estatísticas. Minha esperança (ingênua em retrospecto) era descobrir o que eu poderia estudar que me permitisse realizar esses testes ...
Enquanto escrevo isso, percebo que, se ainda não existe, o mundo poderia usar um novo sub-ramo da estatística, dedicado a técnicas para detectar e expor "tortura de dados". (Obviamente, não quero me deixar levar pela metáfora da "tortura": a questão não é "tortura de dados" em si, mas as "descobertas" espúrias que ela pode levar a).
Respostas:
Há uma distinção que às vezes não recebe atenção suficiente, ou seja, geração de hipótese versus teste de hipótese ou análise exploratória versus teste de hipótese. Você tem permissão para que todos os truques sujos do mundo venham com sua ideia / hipótese. Mas quando você o testar mais tarde, você deve cruelmente matar seus queridos.
Sou biólogo trabalhando com dados de alta produtividade o tempo todo e, sim, faço isso "fatiando e cortando" com bastante frequência. A maioria dos casos que o experimento realizado não foi cuidadosamente projetada; ou talvez aqueles que o planejaram não tenham respondido a todos os resultados possíveis. Ou a atitude geral quando o planejamento era "vamos ver o que há lá". Acabamos com conjuntos de dados caros, valiosos e interessantes por si só, que eu reviro e volto para criar uma história.
Mas então, é apenas uma história (possível hora de dormir). Depois de selecionar alguns ângulos interessantes - e aqui está o ponto crucial - você deve testá-lo não apenas com conjuntos de dados independentes ou amostras independentes, mas preferencialmente com uma abordagem independente , um sistema experimental independente.
A importância dessa última coisa - uma configuração experimental independente, não apenas um conjunto independente de medições ou amostras - é frequentemente subestimada. Entretanto, quando testamos 30.000 variáveis em busca de diferenças significativas, geralmente acontece que, embora amostras semelhantes (mas diferentes) da mesma coorte e analisadas com o mesmo método não rejeitem a hipótese que baseamos no conjunto anterior. Mas então nos voltamos para outro tipo de experimento e outra coorte, e nossas descobertas resultam de um viés metodológico ou são limitadas em sua aplicabilidade.
É por isso que muitas vezes precisamos de vários trabalhos de vários pesquisadores independentes para realmente aceitar uma hipótese ou um modelo.
Então, acho que essa tortura de dados é boa, desde que você mantenha essa distinção em mente e se lembre do que está fazendo, em que estágio do processo científico você está. Você pode usar as fases da lua ou redefinir 2 + 2, desde que tenha uma validação independente dos dados. Para colocar em uma foto:
Infelizmente, existem aqueles que solicitam um microarray para arredondar um trabalho após várias experiências terem sido feitas e nenhuma história surgiu, com a esperança de que a análise de alto rendimento mostre algo. Ou eles estão confusos sobre todo o teste de hipótese versus coisa de geração.
fonte
Herman Friedman, meu professor favorito na pós-graduação, costumava dizer que
A prevenção rigorosa de qualquer coisa, exceto o teste mais rigoroso de hipóteses definidas a priori, limita severamente sua capacidade de ser surpreendido.
Eu acho que o principal é que somos honestos sobre o que estamos fazendo. Se estamos em um modo altamente exploratório, deveríamos dizer isso. No extremo oposto, um professor que eu conheço disse a sua aluna para mudar suas hipóteses, pois as originais não foram consideradas significativas.
fonte
Deixe-me acrescentar alguns pontos:
Em primeiro lugar, a geração de hipóteses é uma parte importante da ciência. E resultados não preditivos (exploratórios / descritivos) podem ser publicados.
IMHO, o problema não é, por si só, que a exploração de dados seja usada em um conjunto de dados e apenas partes dessas descobertas sejam publicadas. Os problemas são
A ciência e o desenvolvimento de métodos são processos iterativos de uma maneira muito mais geral do que apenas geração de hipóteses - testes - gerando novas hipóteses - testes ... IMHO é uma questão de julgamento profissional que tipo de conduta adequada é necessária em que estágio (ver exemplo abaixo).
O que eu faço:
Quando eu tenho uma chance, também mostro às pessoas quanta diferença isso faz (possível principalmente com um nível mais baixo do mesmo problema, por exemplo, compare dados validados independentemente do paciente com desempenho interno) estimativas de rotinas de otimização de hiperparâmetros, como pesquisa na grade para paraters SVM, "modelos combinados" como PCA-LDA e assim por diante. Não é realmente viável para a dragagem de dados reais, porque até agora ninguém me deu o dinheiro para fazer uma verdadeira réplica de um estudo de tamanho sensato ...)
manuscrito aceito no arXiv: 1211.1323
Aqui está um estudo que mostra que essa tentativa cega também costuma ser inútil, por exemplo,
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: rompendo com as tendências do pré-processamento ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(eles tentaram um grande número de combinações de etapas de pré-processamento e descobriram que muito poucos levam a modelos melhores do que nenhum pré-processamento)
Enfatize que não estou torturando meus dados mais do que o necessário:
exemplo :
Um artigo de acompanhamento usando os mesmos dados do exemplo para (diferente) desenvolvimento da teoria lê
Porque, enquanto isso, fui explicitamente convidado (em uma conferência por um editor da revista CILS) a comparar os modelos com o pré-processamento do PLS.
Tenha um ponto de vista prático: por exemplo, no estudo de astrocitoma vinculado acima, é claro que ainda decidi alguns pontos depois de analisar os dados (como qual limiar de intensidade corresponde às medições realizadas fora da amostra - que foram descartadas). Outras decisões que eu sei não serem críticas (linha de base linear versus quadrática: minha experiência com esse tipo de dados sugere que isso realmente não muda muito - o que também está em perfeita concordância com o que Jasper Engel encontrou em diferentes dados de tipo semelhante, portanto Eu não esperaria que houvesse um grande preconceito ao decidir o tipo de linha de base, observando os dados (o artigo argumenta por que isso é sensato).
Com base no estudo que fizemos, agora podemos dizer o que deve ser abordado a seguir e o que deve ser alterado. E como ainda estamos em uma etapa relativamente inicial do desenvolvimento do método (observando amostras ex vivo ), não vale a pena passar por toda a "lição de casa" que será necessária antes que o método possa ser usado in vivo . Por exemplo, no estágio atual da classificação do astrocitoma, a validação da reamostragem é uma escolha mais sensata do que o conjunto de testes externo. Eu ainda enfatizo que um estudo de validação verdadeiramente externo será necessário em algum momento, porque algumas características de desempenho só podem ser medidas dessa maneira (por exemplo, os efeitos de desvio / comprovação de instrumentos que podemos corrigir por eles). Mas agora, enquanto ainda estamos jogando com ex-vivoamostras e estão resolvendo outras partes do grande problema (nos artigos vinculados: como lidar com casos limítrofes), o ganho de conhecimento útil de um estudo de validação ex vivo adequado é muito baixo para valer a pena o esforço (IMHO: a menos que que foram feitas para medir o viés devido à dragagem de dados).
Certa vez, li um argumento sobre padrões estatísticos e de relatórios, e se isso deveria ser considerado necessário para um periódico (não me lembro qual) que me convenceu: a idéia expressa era que não havia necessidade de os editores tentarem concordar e aplicar algum padrão (o que causará muita discussão fútil) porque:
fonte
Às vezes, as coisas que você vê como "tortura de dados" não são realmente. Nem sempre é claro de antemão exatamente o que você fará com os dados para fornecer o que você acredita serem os resultados genuínos do experimento até vê-los.
Por exemplo, com os dados do tempo de reação para uma tarefa de decisão, geralmente você deseja rejeitar momentos que não são sobre a decisão (ou seja, quando eles estão indo tão rápido que obviamente estão apenas adivinhando e não estão tomando uma decisão). Você pode plotar a precisão da decisão contra a RT para ver onde geralmente ocorre a suposição. Mas até você testar esse paradigma em particular, você não tem como saber onde estão os pontos de corte (com o tempo, sem precisão). Para alguns observadores, esse procedimento parece torturar os dados, mas desde que não tenha nada diretamente a ver com os testes de hipóteses (você não o está ajustando com base nos testes), ele não está torturando os dados.
A espionagem de dados durante um experimento é válida desde que seja feita da maneira correta. Provavelmente, é antiético colocar seu experimento em uma caixa preta e fazer a análise apenas quando o número planejado de assuntos tiver sido executado. Às vezes, é difícil dizer que há problemas com o experimento até que você analise os dados e analise alguns o mais rápido possível. A espreita de dados é fortemente depreciada porque equivale a ver se p <0,05 e decidir continuar. Mas existem muitos critérios pelos quais você pode decidir continuar coletando que não faz nada prejudicial às suas taxas de erro.
Digamos que você deseja garantir que sua estimativa de variação esteja dentro de um intervalo provável conhecido. Amostras pequenas podem ter estimativas de variação bastante distantes, para que você colete dados extras até saber que a amostra é mais representativa. Na simulação a seguir, espero que a variação em cada condição seja 1. Vou fazer algo realmente louco e provar cada grupo independentemente por 10 amostras e depois adicionar assuntos até que a variação esteja próxima de 1.
Então, acabei ficando louco com a amostragem e aproximando minhas variações do esperado e ainda não afeto muito o alfa (é um pouco abaixo de 0,05). Mais algumas restrições, como os Ns, devem ser iguais em cada grupo e não podem ter mais que 30 e o alfa está praticamente correto em 0,05. Mas e o SE? E se eu tentasse tornar o SE um determinado valor? Essa é realmente uma ideia realmente interessante, porque, por sua vez, defino a largura do IC antecipadamente (mas não o local).
Mais uma vez, o alfa mudou uma pequena quantidade, embora eu tenha permitido que os N's percorram até 46 os 10 originais com base na espionagem de dados. Mais importante, todos os SE caem em uma faixa estreita em cada um dos experimentos. É fácil fazer um pequeno ajuste alfa para corrigir isso, se for uma preocupação. O ponto é que alguns bisbilhoteiros fazem pouco ou nenhum mal e podem até trazer benefícios.
(BTW, o que estou mostrando não é uma bala mágica. Na verdade, você não reduz o número de assuntos a longo prazo, porque a energia para a simulação de N variada é quase a mesma que para uma simulação da média de N )
Nenhuma das opções acima contradiz a literatura recente sobre a adição de sujeitos após o início de um experimento. Nesses estudos, eles analisaram simulações nas quais você adicionou sujeitos após fazer um teste de hipótese, a fim de obter o valor p mais baixo. Isso ainda é ruim e pode aumentar extraordinariamente o alfa. Além disso, gosto muito das respostas de janeiro e de Peter Flom. Eu só queria ressaltar que olhar para os dados enquanto você os coleta e até alterar um N planejado durante a coleta não são necessariamente coisas ruins.
fonte
p
regra de parada baseada. Todas as críticas à modificação de N referem-se a fazê-lo após um teste de hipótese (deve haver outras coisas também incluídas). Existe o potencial de isso causar tentação ... mas estou ignorando isso.Este é realmente um problema cultural de pensamento desequilibrado, em que o viés de publicação leva a favorecer resultados positivos e nossa natureza competitiva exige que editores e pesquisadores produzam resultados de interesse novos ou controversos, por exemplo, no sentido de refutar os resultados de outra pessoa. Na pesquisa médica, há um progresso considerável para corrigir esse problema pelo registro obrigatório de ensaios e publicação de resultados com registros de ensaios abandonados, que também devem ser divulgados. Entendo que, como a publicação em periódicos para pesquisas malsucedidas pode não ser praticável, há planos de manter um banco de dados disponível publicamente. Resultados incomuns que não podem ser replicados não são necessariamente resultado de contravenção, como talvez com 50,
Usar métodos diferentes também não é necessariamente uma solução. Por exemplo, que químico misturaria reagentes de maneiras diferentes em condições diferentes e esperaria os mesmos resultados como um curso natural?
fonte