Análise de correlação canônica com correlação de classificação

15

A análise de correlação canônica (CCA) visa maximizar a correlação usual de produto-momento de Pearson (ou seja, coeficiente de correlação linear) das combinações lineares dos dois conjuntos de dados.

Agora, considere o fato de que esse coeficiente de correlação mede apenas associações lineares - esse é o motivo pelo qual também usamos, por exemplo, os coeficientes de correlação Spearman- ou Kendall- (rank) que medem monótonos arbitrários (não necessariamente lineares) conexão entre variáveis.ρτ

Portanto, eu estava pensando no seguinte: uma limitação do CCA é que ele apenas tenta capturar a associação linear entre as combinações lineares formadas devido à sua função objetivo. Não seria possível estender o CCA em algum sentido, maximizando, digamos, Spearman- vez de Pearson- ?ρr

Esse procedimento levaria a algo estatisticamente interpretável e significativo? (Faz sentido - por exemplo - executar o CCA em fileiras ...?) Gostaria de saber se ajudaria quando estamos lidando com dados não normais ...

Tamas Ferenci
fonte
4
Vai OVERALS - análise linear canônica que de forma otimizada escalas (transforma monotonamente) variáveis para maximizar correlações canônicas - seja do seu agrado?
ttnphns
@ttnphns: Obrigado pela idéia, eu nunca ouvi falar dela antes, e parece realmente interessante! No entanto, acho que não aborda o ponto: até onde eu entendo, é essencialmente uma combinação de escala ideal e CCA - mas a escala ideal faz realmente sentido apenas para variáveis ​​categóricas. Parece não mudar muito para variáveis contínuas medidas na escala de proporção (que eu tenho em mente!). Mas me corrija, se eu estiver errado.
Tamas Ferenci
11
@ttnphns: Bem, da mesma maneira que às vezes você usa a correlação de Spearman em variáveis ​​contínuas! (É claro que ele lida com os dados como ordinais ... mas, mesmo assim, nós os usamos em variáveis ​​definitivamente contínuas para caracterizar a associação monótona geral (e não apenas linear) entre as variáveis.) É por isso que eu pensei que isso faria sentido também no CCA ...
Tamas Ferenci
@ Glen_b, você está certo. Obviamente, as correlações de classificação são para qualquer monotonicidade - sejam dados ordinais ou contínuos. Estou tão surpreso com meu próprio comentário acima que estou excluindo-o.
ttnphns
Você pode tentar usar o Kernel CCA, que especificamente quando usado com funções de base radial, permite projetar os dados em um subespaço dimensional infinito.
roni

Respostas:

6

Usei expansões de splines cúbicas restritas ao calcular variáveis ​​canônicas. Você está adicionando funções básicas não lineares à análise exatamente como adicionaria novos recursos. Isso resulta em análise não linear de componentes principais. Veja a R Hmiscpacote de transcanfunção para um exemplo. O homalspacote R leva isso muito mais longe.

Frank Harrell
fonte
11
Obrigado! A abordagem descrita em homals era nova para mim, mas definitivamente interessante.
Tamas Ferenci
4

O método padrão do CCA trabalha com a matriz do coeficiente de correlação do momento do produto. Para o maior mgnitude CC, ele constrói duas variáveis ​​compostas z1 (n) e z2 (n) por combinação linear de duas matixes (com n linhas e variáveis ​​m1 e m2), de modo que o abs (correlação (z1, z2)) seja maximizado. Essa função objetivo pode ser maximizada diretamente, mesmo que a correlação (z1, z2) não seja o momento do produto, mas seja definida de forma diferente.

Mishra, SK (2009) "Uma nota sobre a análise de correlação canônica ordinal de dois conjuntos de classificações"

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1328319

SK Mishra
fonte