Os dados de binning são válidos antes da correlação de Pearson?

8

É aceitável classificar dados, calcular a média dos compartimentos e derivar o coeficiente de correlação de Pearson com base nesses meios? Parece-me um procedimento um tanto quanto suspeito (se você considerar os dados como uma amostra populacional) a dispersão desses meios será o erro padrão da média e, portanto, muito restrito se for grande. Portanto, você provavelmente obterá um coeficiente de correlação muito melhor do que os dados primários, e isso parece errado. Por outro lado, as pessoas geralmente medem as medições replicadas antes de um cálculo de correlação que não é muito diferente.n

James
fonte
1
Qual seria o objetivo de bin neste caso em particular?
chl
2
Não há nenhum ponto evidente para o descarte antes da correlação, a menos que você esteja diretamente interessado em examinar o relacionamento entre as variáveis ​​em depósito.
Nick Cox
11
Organizar dados que são contínuos e depois calcular uma correlação é como cortar sua perna e obter muletas.
Peter Flom
2
Meu palpite é que o binning foi feito para fazer a correlação parecer melhor do que era na realidade. Os dados primários apresentaram uma correlação ruim, mas, quando classificados e em média, pareciam muito melhores. Penso que, porque cada valor médio do compartimento terá um pequeno erro padrão (havia 100s de pontos em cada compartimento), os valores médios fornecem uma correlação aparentemente bonita.
James
3
Por que parar aí? Usando apenas dois compartimentos, você sempre pode obter um coeficiente de correlação de % :-). Por outro lado, a média das medidas de replicação é diferente porque invoca um modelo diferente de comportamento dos dados e leva a uma inferência diferente (sobre as expectativas das réplicas e não das próprias réplicas). 100
whuber

Respostas:

1

Não é exatamente o mesmo que a sua pergunta, mas em uma nota relacionada, lembro-me de ler um artigo há algum tempo (The American Statistician ou Chance magazine, entre 2000 e 2003) que mostrou isso para qualquer conjunto de dados de 2 variáveis ​​em que elas são bastante de maneira não correlacionada, é possível encontrar uma maneira de classificar a variável "preditor" e, em seguida, calcular a média da variável de resposta em cada categoria e, dependendo de como você classifica, mostra uma relação positiva ou negativa em uma tabela ou plotagem simples.

Greg Snow
fonte
3
O excelente artigo a que você alude é o @Article {wai06fin, author = {Wainer, Howard}, title = {Descobrindo o que não existe na infeliz classificação de resultados: {O efeito {Mendel}}, diário = {Chance}, ano = 2006, volume = 19, número = 1, páginas = {49-56}, anotação = {pode encontrar compartimentos que produzam associação positiva ou negativa; especialmente pertinente quando os efeitos são pequenos; `` Com quatro parâmetros, posso ajustar um elefante; com cinco, posso fazê-lo mexer seu tronco. '' - John von Neumann}}
Frank Harrell
@FrankHarrell, obrigado pela referência, lembrei-me de alguns anos de folga.
Greg Snow
0

Vamos considerar duas variáveis ​​( , Y i ). Quando você diz que bin os dados, e você "bin" em X i , você quer dizer repetindo a medição para exatamente o mesmo X i para obter o correspondente Y ' i valor? Se você repetir a medição dessa maneira, o erro médio diminuirá com XEuYEuXEuXEuYEu , e acho que você é livre para fazer o que quiser com ele. Apenas certifique-se de usar um coeficiente de correlação ponderado se considerar pontos de dados com barras de erro muito diferentes.n

Agora, digamos que você não esteja repetindo a medição de , mas considerando X i ± δ e o correspondente Y i ± δ e binning em δ e obtenha os valores binados em δ . Penso que nesta situação a solução dependerá da relação entre o tamanho da caixa, o erro na medição e a inclinação da correlação. Espero que, se ambos δ e δ ´ forem pequenos, a situação será semelhante à do parágrafo anterior. Caso contrário, pode ser vantajoso bin ou não; isso mudará os resultados porque o cov ( XXEuXEu±δYEu±δδδδδ´ , Y i , b i n ) será diferente dos valores não selecionados, mas acho que ainda é válido fazê-lo. Eu acho que você não está quebrando nenhuma suposição; Eu apenas me certificaria de que é vantajoso fazê-lo e testaria seu significado através de um teste de permutação (para evitar qualquer suposição sobre a distribuição do coeficiente).XEu,bEunYEu,bEun

pedrofigueira
fonte
3
A única maneira de entender o que você escreveu é que, se alguém tem muito tempo em suas mãos e quer passar a hora do dia, isso é melhor do que o crime de rua.
Frank # # # # Harrell Harrell
-1

O principal motivo para binar dados é permitir a possibilidade de um relacionamento não linear entre as variáveis. A correlação de Pearson mede a força da associação linear , para que não funcione bem quando o relacionamento não é linear.

Obviamente, existem maneiras muito melhores de lidar com esse problema do que o binning. Por exemplo, você pode ajustar um modelo de regressão não linear ou local e correlacionar os valores de resposta previstos e reais (embora isso assuma que uma abordagem de resposta do preditor-resposta é válida, enquanto a correlação é simétrica). Binning é apenas uma maneira de resolver o problema da não-linearidade que pessoas sem formação estatística ou ferramentas estatísticas podem usar.

Hong Ooi
fonte
3
Binning não tem absolutamente nada em ajudar a encontrar um relacionamento não-linear.
Frank # # # # # Harrell Harrell