É aceitável classificar dados, calcular a média dos compartimentos e derivar o coeficiente de correlação de Pearson com base nesses meios? Parece-me um procedimento um tanto quanto suspeito (se você considerar os dados como uma amostra populacional) a dispersão desses meios será o erro padrão da média e, portanto, muito restrito se for grande. Portanto, você provavelmente obterá um coeficiente de correlação muito melhor do que os dados primários, e isso parece errado. Por outro lado, as pessoas geralmente medem as medições replicadas antes de um cálculo de correlação que não é muito diferente.
correlation
binning
James
fonte
fonte
Respostas:
Não é exatamente o mesmo que a sua pergunta, mas em uma nota relacionada, lembro-me de ler um artigo há algum tempo (The American Statistician ou Chance magazine, entre 2000 e 2003) que mostrou isso para qualquer conjunto de dados de 2 variáveis em que elas são bastante de maneira não correlacionada, é possível encontrar uma maneira de classificar a variável "preditor" e, em seguida, calcular a média da variável de resposta em cada categoria e, dependendo de como você classifica, mostra uma relação positiva ou negativa em uma tabela ou plotagem simples.
fonte
Vamos considerar duas variáveis ( , Y i ). Quando você diz que bin os dados, e você "bin" em X i , você quer dizer repetindo a medição para exatamente o mesmo X i para obter o correspondente Y ' i valor? Se você repetir a medição dessa maneira, o erro médio diminuirá com √XEu YEu XEu XEu Y′Eu , e acho que você é livre para fazer o que quiser com ele. Apenas certifique-se de usar um coeficiente de correlação ponderado se considerar pontos de dados com barras de erro muito diferentes.n--√
Agora, digamos que você não esteja repetindo a medição de , mas considerando X i ± δ e o correspondente Y i ± δ ′ e binning em δ e obtenha os valores binados em δ . Penso que nesta situação a solução dependerá da relação entre o tamanho da caixa, o erro na medição e a inclinação da correlação. Espero que, se ambos δ e δ ´ forem pequenos, a situação será semelhante à do parágrafo anterior. Caso contrário, pode ser vantajoso bin ou não; isso mudará os resultados porque o cov ( XXEu XEu± δ YEu± δ′ δ δ δ δ´ , Y i , b i n ) será diferente dos valores não selecionados, mas acho que ainda é válido fazê-lo. Eu acho que você não está quebrando nenhuma suposição; Eu apenas me certificaria de que é vantajoso fazê-lo e testaria seu significado através de um teste de permutação (para evitar qualquer suposição sobre a distribuição do coeficiente).Xi , b i n Yi , b i n
fonte
O principal motivo para binar dados é permitir a possibilidade de um relacionamento não linear entre as variáveis. A correlação de Pearson mede a força da associação linear , para que não funcione bem quando o relacionamento não é linear.
Obviamente, existem maneiras muito melhores de lidar com esse problema do que o binning. Por exemplo, você pode ajustar um modelo de regressão não linear ou local e correlacionar os valores de resposta previstos e reais (embora isso assuma que uma abordagem de resposta do preditor-resposta é válida, enquanto a correlação é simétrica). Binning é apenas uma maneira de resolver o problema da não-linearidade que pessoas sem formação estatística ou ferramentas estatísticas podem usar.
fonte