Vou propor esta questão por meio de um exemplo.
Suponha que eu tenha um conjunto de dados, como o conjunto de dados de preços de imóveis em Boston, no qual possuo variáveis contínuas e categóricas. Aqui, temos uma variável "qualidade", de 1 a 10, e o preço de venda. Posso separar os dados em casas de qualidade "baixa", "média" e "alta" criando (arbitrariamente) pontos de corte para a qualidade. Então, usando esses agrupamentos, posso plotar histogramas do preço de venda um contra o outro. Igual a:
Aqui, "baixo" é e "alto" é > 7 na pontuação de "qualidade". Agora temos uma distribuição dos preços de venda para cada um dos três grupos. É claro que existe uma diferença no centro da localização para as casas de média e alta qualidade. Agora, tendo feito tudo isso, penso: "Hum. Parece haver uma diferença no centro da localização! Por que não faço um teste t dos meios?". Então, recebo um valor-p que parece rejeitar corretamente a hipótese nula de que não há diferença nas médias.
Agora, suponha que eu não tivesse nada em mente para testar essa hipótese até plotar os dados.
Estes dados são dragados?
Ainda é a dragagem de dados se eu pensasse: "Hm, aposto que casas de maior qualidade custam mais, já que sou um humano que já morou em uma casa antes. Vou plotar os dados. Ah! Parece diferente! Tempo para testar! "
Naturalmente, não é a dragagem de dados se o conjunto de dados foi coletado com a intenção de testar essa hipótese desde o início. Mas, muitas vezes, é preciso trabalhar com os conjuntos de dados que nos são dados e nos dizem para "procurar padrões". Como alguém evita a dragagem de dados com essa vaga tarefa em mente? Criar conjuntos de espera para testar dados? A visualização "conta" como bisbilhotando uma oportunidade de testar uma hipótese sugerida pelos dados?
Visualizar os dados é uma parte indispensável da análise e uma das primeiras coisas que você deve fazer com um conjunto de dados desconhecido. Um globo ocular rápido dos dados pode informar as etapas a serem seguidas. De fato, deve ser bastante óbvio olhando para o gráfico que os meios são diferentes, e não sei por que um teste T foi necessário para confirmar isso - os meios estão suficientemente separados para que o próprio gráfico seja toda a evidência que eu faria exigir.
Acho que há uma questão mais profunda aqui. Como você mantém uma neutralidade do tipo zen e evita distorções ao lidar com dados de maneira científica? A resposta é que você não. Ou melhor, você não precisa. A formação de palpites e hipóteses e a construção de uma narrativa mental do que os dados significam são perfeitamente naturais e aceitáveis, desde que você esteja ciente de que está fazendo isso e esteja mentalmente preparado para reconsiderar todas essas hipóteses quando confrontado com dados conflitantes.
fonte