Realizando um teste estatístico após visualizar dados - dragagem de dados?

31

Vou propor esta questão por meio de um exemplo.

Suponha que eu tenha um conjunto de dados, como o conjunto de dados de preços de imóveis em Boston, no qual possuo variáveis ​​contínuas e categóricas. Aqui, temos uma variável "qualidade", de 1 a 10, e o preço de venda. Posso separar os dados em casas de qualidade "baixa", "média" e "alta" criando (arbitrariamente) pontos de corte para a qualidade. Então, usando esses agrupamentos, posso plotar histogramas do preço de venda um contra o outro. Igual a:

qualidade da habitação e preço de venda

Aqui, "baixo" é e "alto" é > 7 na pontuação de "qualidade". Agora temos uma distribuição dos preços de venda para cada um dos três grupos. É claro que existe uma diferença no centro da localização para as casas de média e alta qualidade. Agora, tendo feito tudo isso, penso: "Hum. Parece haver uma diferença no centro da localização! Por que não faço um teste t dos meios?". Então, recebo um valor-p que parece rejeitar corretamente a hipótese nula de que não há diferença nas médias.3>7

Agora, suponha que eu não tivesse nada em mente para testar essa hipótese até plotar os dados.

Estes dados são dragados?

Ainda é a dragagem de dados se eu pensasse: "Hm, aposto que casas de maior qualidade custam mais, já que sou um humano que já morou em uma casa antes. Vou plotar os dados. Ah! Parece diferente! Tempo para testar! "

Naturalmente, não é a dragagem de dados se o conjunto de dados foi coletado com a intenção de testar essa hipótese desde o início. Mas, muitas vezes, é preciso trabalhar com os conjuntos de dados que nos são dados e nos dizem para "procurar padrões". Como alguém evita a dragagem de dados com essa vaga tarefa em mente? Criar conjuntos de espera para testar dados? A visualização "conta" como bisbilhotando uma oportunidade de testar uma hipótese sugerida pelos dados?

Marcel
fonte

Respostas:

27

Discordo brevemente de / contraponto à resposta de @ ingolifs: sim, é essencial visualizar seus dados. Mas visualizar antes de decidir sobre a análise leva você ao jardim de caminhos de bifurcação de Gelman e Loken . Isso não é o mesmo que dragagem de dados ou p-hacking, em parte por intenção (o GoFP geralmente é bem-intencionado) e em parte porque você não pode executar mais de uma análise. Mas é uma forma de bisbilhotar: como sua análise depende dos dados, pode levar a conclusões falsas ou superconfiantes.

Você deve, de alguma forma, determinar qual é a sua análise pretendida (por exemplo, "casas de alta qualidade devem ter um preço mais alto") e anotá-las (ou mesmo pré-registrá-las oficialmente) antes de analisar seus dados (não há problema em analisar suas variáveis preditivas em avançar, não apenas as variáveis ​​de resposta, mas se você realmente não tem idéias a priori , nem sabe quais variáveis ​​podem ser preditivas e quais podem ser respostas); se seus dados sugerirem análises diferentes ou adicionais, sua redação pode indicar o que você pretendia fazer inicialmente e o que (e por que) você acabou fazendo isso.

Se você está realmente fazendo pura exploração (ou seja, você não tem hipóteses a priori , você só quer ver o que há nos dados):

  • seus pensamentos sobre a realização de uma amostra para confirmação são bons.
    • No meu mundo (não trabalho com grandes conjuntos de dados), a perda de resolução devido a um tamanho de amostra menor seria angustiante
    • você precisa ter um pouco de cuidado ao selecionar sua amostra de validação se seus dados estiverem estruturados de alguma forma (geograficamente, séries temporais, etc. etc.). A subamostragem como se os dados fossem iid leva ao excesso de confiança (consulte Wenger e Olden Methods in Ecology and Evolution 2012); portanto, convém escolher unidades geográficas para aguentar (consulte DJ Harris Methods in Ecology and Evolution 2015, por exemplo)
  • você pode admitir que está sendo puramente exploratório. Idealmente, você evitaria os valores-p inteiramente nesse caso, mas pelo menos dizer ao seu público que está vagando no GoFP permite que eles saibam que eles podem obter os valores-p com enormes grãos de sal.

Minha referência favorita para "práticas estatísticas seguras" são as Estratégias de Modelagem de Regressão de Harrell (Springer); ele expõe as melhores práticas para inferência x previsão x exploração, de maneira rigorosa, mas prática.

Ben Bolker
fonte
4
Muito bem colocado! Espero encaminhar as pessoas para essa resposta no futuro.
precisa saber é o seguinte
Exatamente o tipo de resposta que eu estava procurando, obrigado. Eu creditei esta resposta como resposta. Você conhece algum recurso que ensine práticas estatísticas seguras? Talvez um pouco mais amplo em escopo do que o (excelente) artigos que você postou
Marcel
Ótima resposta (+1), mas discordo que isso seja diferente da dragagem de dados; intenção é irrelevante - o efeito é o mesmo.
Reponha Monica
Na verdade, acho que vale a pena manter a distinção entre diferentes formas de bisbilhotar. A dragagem é indiscutivelmente mais severa porque envolve (1) vários testes explícitos em vez de múltiplos testes implícitos e (2) testes condicionais / contínuos até que p <0,05 (ou o que seja) seja alcançado. O efeito qualitativo é certamente o mesmo.
Ben Bolker
11

Visualizar os dados é uma parte indispensável da análise e uma das primeiras coisas que você deve fazer com um conjunto de dados desconhecido. Um globo ocular rápido dos dados pode informar as etapas a serem seguidas. De fato, deve ser bastante óbvio olhando para o gráfico que os meios são diferentes, e não sei por que um teste T foi necessário para confirmar isso - os meios estão suficientemente separados para que o próprio gráfico seja toda a evidência que eu faria exigir.

R2

Acho que há uma questão mais profunda aqui. Como você mantém uma neutralidade do tipo zen e evita distorções ao lidar com dados de maneira científica? A resposta é que você não. Ou melhor, você não precisa. A formação de palpites e hipóteses e a construção de uma narrativa mental do que os dados significam são perfeitamente naturais e aceitáveis, desde que você esteja ciente de que está fazendo isso e esteja mentalmente preparado para reconsiderar todas essas hipóteses quando confrontado com dados conflitantes.

Ingolifs
fonte
7
Visualizar dados antes de executar testes pode ser inócuo nesse caso específico. No entanto, em seguida, seria possível visualizar outra dimensão ... e outra ... e observar gráficos de dispersão ... e em breve encontraremos algo que parece "suficientemente óbvio" para que um teste formal e uma narrativa ocorram naturalmente. Sim, a dragagem de dados é definitivamente algo que você pode fazer facilmente por acidente. Veja o "Jardim dos caminhos de bifurcação" de Gelman .
S. Kolassa - Restabelece Monica