Estou tentando correlacionar a idade (6 a 90 anos) com o volume da voz (em dB). No entanto, meus dados não contêm nenhum ponto de dados no intervalo de 20 a 50 anos.
Que medida de correlação é mais apropriada com uma lacuna tão considerável e por quê? Eu tenho usado Kendall Tau até agora.
Observe que não estamos lidando com dados distribuídos bimodalmente aqui, mas com uma lacuna substancial de dados ausentes na faixa etária.
Respostas:
Crie um gráfico de dispersão para verificar se faz algum sentido supor que um único coeficiente de correlação seja uma descrição adequada da associação entre as variáveis.
Por exemplo, nesses dados (simulados), a correlação entre 6 e 20 anos é de 90%, para maiores de 50 anos é de -70% e no geral é de 15%. Em tal situação, relatar um único coeficiente de correlação seria tão enganoso quanto relatar que o número médio de pernas entre os animais domésticos é quatro quando metade dos animais são peixes e a outra metade são aranhas ...
A escolha de como expressar correlação é uma preocupação secundária e repousa sobre outros aspectos do conjunto de dados.
fonte