Qual medida de correlação deve ser usada com uma grande lacuna (falta de dados)?

8

Estou tentando correlacionar a idade (6 a 90 anos) com o volume da voz (em dB). No entanto, meus dados não contêm nenhum ponto de dados no intervalo de 20 a 50 anos.

Que medida de correlação é mais apropriada com uma lacuna tão considerável e por quê? Eu tenho usado Kendall Tau até agora.

Observe que não estamos lidando com dados distribuídos bimodalmente aqui, mas com uma lacuna substancial de dados ausentes na faixa etária.

whuber
fonte
1
O título menciona que há uma lacuna em uma variável, mas parece que a lacuna está nas duas variáveis ​​para as quais você está tentando calcular a correlação. Então, quais dados estão faltando exatamente?
mpiktas

Respostas:

8

Crie um gráfico de dispersão para verificar se faz algum sentido supor que um único coeficiente de correlação seja uma descrição adequada da associação entre as variáveis.

Por exemplo, nesses dados (simulados), a correlação entre 6 e 20 anos é de 90%, para maiores de 50 anos é de -70% e no geral é de 15%. Em tal situação, relatar um único coeficiente de correlação seria tão enganoso quanto relatar que o número médio de pernas entre os animais domésticos é quatro quando metade dos animais são peixes e a outra metade são aranhas ...

Gráfico de dispersão de intensidade x idade para 150 pessoas simuladas

A escolha de como expressar correlação é uma preocupação secundária e repousa sobre outros aspectos do conjunto de dados.

whuber
fonte
whuber é sábio. Com uma lacuna tão grande, acho que quase nunca se justifica dar importância a uma única medida de correlação.
Michael Bishop
(+1) boa anedota de peixe-aranha!
Dmitrij Celov