Medindo a dependência não linear

A covariância entre duas variáveis aleatórias define uma medida de quão estreitamente elas estão linearmente relacionadas entre si. Mas e se a distribuição conjunta for circular? Certamente há estrutura na distribuição. Como essa estrutura é extraída?

covariance-matrix Infinidade
fonte

Respostas:

Por "circular", entendo que a distribuição está concentrada em uma região circular, como neste gráfico de contorno de um pdf.

Gráfico de contorno de uma distribuição circular

Se essa estrutura existe, mesmo que parcialmente, uma maneira natural de identificá-la e mensurá-la é calcular a distribuição circular em torno de seu centro . (Intuitivamente, isso significa que, para cada raio possível , devemos espalhar a probabilidade de estar na distância do centro igualmente em todas as direções.) Denotando as variáveis como , o centro deve estar localizado no ponto de primeiros momentos . Para fazer a média, é conveniente definir a função de distribuição radial $r$ $r$ $(X,Y)$ $(\mu_X, \mu_Y)$

F (ρ) = Pr [(X - μ_{X})^{2} + (Y - μ_{Y})^{2} \leq ρ^{2}], ρ \geq 0;

$F(\rho) = \Pr[(X-\mu_X)^2 + (Y-\mu_Y)^2 \le \rho^2], \rho \ge 0;$

F (ρ) = 0, ρ < 0.

$F(\rho) = 0, \rho \lt 0.$

Isto captura a probabilidade total de mentir entre a distância e do centro. Para espalhá-lo para fora em todas as direcções, deixe ser uma variável aleatória com CDF e ser uma variável aleatória uniforme em independente de . A variável aleatória bivariada é a média circular de . (Isso faz o trabalho que a nossa intuição exige de uma "média circular" porque (a) tem a distribuição radial correta, ou seja , , por construção e (b) todas as direções do centro ( $0$ $\rho$ $R$ $F$ $\Theta$ $[0, 2\pi]$ $R$ $(\Xi, H) = (R\cos(\Theta) + \mu_X, R\sin(\Theta)+\mu_Y)$ $(X,Y)$ $F$ $\Theta$ ) são igualmente prováveis.)

Nesse ponto, você tem muitas opções: tudo o que resta é comparar a distribuição de com a de . As possibilidades incluem uma distância e a divergência de Kullback-Leibler (junto com inúmeras medidas de distância relacionadas: divergência simetrizada, distância de Hellinger, informações mútuas etc. ). A comparação sugere que pode ter uma estrutura circular quando está "próximo" de . Neste caso, a estrutura pode ser "extraídos" de propriedades de . Por exemplo, uma medida da localização central de , como sua média ou mediana, identifica o "raio" da distribuição de $(X,Y)$ $(\Xi, H)$ $L^p$ $(X,Y)$ $(\Xi, H)$ $F$ $F$ $(X,Y)$ e o desvio padrão (ou outra medida de escala) de expressa como "espalhado" está nas direções radiais sobre sua localização central . $F$ $(X,Y)$ $(\mu_X, \mu_Y)$

Ao amostrar a partir de uma distribuição, com dados , um teste razoável de circularidade é estimar a localização central como de costume (com médias ou medianas) e, portanto, converter cada valor em coordenadas polares relação ao centro estimado. Compare o desvio padrão (ou IQR) dos raios com a média (ou mediana). Para distribuições não circulares, a proporção será grande; para distribuições circulares, deve ser relativamente pequeno. (Se você tem um modelo específico em mente para a distribuição subjacente, pode elaborar a distribuição amostral da estatística radial e construir um teste de significância com ela.) Separadamente, teste a coordenada angular para uniformidade no intervalo $(x_i,y_i), 1 \le i \le n$ $(x_i,y_i)$ $(r_i, \theta_i)$ $[0, 2\pi)$ . Será aproximadamente uniforme para distribuições circulares (e também para algumas outras distribuições); não uniformidade indica um desvio da circularidade.

whuber
fonte

Obrigado! Embora não seja totalmente claro, isso me dá uma idéia. Você poderia recomendar algumas leituras sobre onde esse tipo de distribuição é abordado? Fui exposto apenas aos gaussianos e às outras distribuições padrão. Outra pergunta, isso tem algo a ver com as funções de distribuição radial dos átomos, etc?

Infinity

@ Infinidade Deixe-me saber qual parte não está clara para que eu possa tentar consertá-la. Não sei onde essas distribuições são discutidas, mas análises relacionadas podem ser encontradas na literatura sobre "distribuições circulares". As idéias matemáticas subjacentes são de fato um tanto tenuamente relacionadas à teoria orbital atômica. Os conceitos relevantes incluem separabilidade da Equação de Schrodinger em coordenadas esféricas, construção da medida de Haar de um grupo de Lie compacto por média e comparação de orbitais por meio de integrais de sobreposição.

whuber

Obrigado. Eu sou muito novo em probabilidade e estatísticas, então provavelmente foi por causa disso. Eu realmente não entendo o que você quer dizer com "calcule a média da distribuição circularmente em torno do centro", acho que significa calcular a média de todos os círculos para que haja apenas um círculo com centro em e raio um bocado como um ajuste linha de regressão linear. Isso está correto?

(μ_{X}, μ_{Y})

$(\mu_X, \mu_Y)$

ρ

$\rho$

Infinity

A outra dúvida que tenho é que a função de distribuição parece descrever um disco, mas a figura (e o que eu tinha em mente) é um anel. A variável aleatória descreve o círculo médio na forma polar. Lamento não ter entendido claramente o que acontece a seguir. Entendo que comparamos as duas distribuições usando alguma métrica de distância, mas por que a especial e como ela ajuda, sou incapaz de raciocinar. Lamento se as perguntas parecem muito estúpidas.

F (ρ)

$F(\rho)$

(Ξ, H)

$(\Xi, H)$

(Ξ, H)

$(\Xi, H)$

Infinity

@Infinity Adicionei algumas observações esclarecedoras. Você não calcula a média de círculos; em vez disso, você calcula a média (ou "mancha") de toda a probabilidade em cada círculo, para que, não importa o que você tenha iniciado, ele acabe parecendo a minha foto (com contornos circulares). Se a distribuição original era realmente circular, essa média não a altera. Portanto, comparar a distribuição com sua versão média indica a distância de ser circular em primeiro lugar.

whuber

A informação mútua possui propriedades um pouco análogas à covariância. Covariância é um número que é 0 para variáveis independentes e diferente de zero para variáveis que são linearmente dependentes. Em particular, se duas variáveis são iguais, a covariância é igual à variância (que geralmente é um número positivo). Um problema da covariância é que ela pode ser zero, mesmo que duas variáveis não sejam independentes, desde que a dependência seja não-linear.

Informação mútua (MI) é um número não negativo. É zero se e somente se as duas variáveis forem estatisticamente independentes. Essa propriedade é mais geral que a covariância e cobre quaisquer dependências, incluindo não lineares.

Se as duas variáveis forem iguais, o MI será igual à entropia da variável (novamente, geralmente um número positivo). Se as variáveis forem diferentes e não estiverem relacionadas deterministicamente, o MI será menor que a entropia. Nesse sentido, o IM de duas variáveis varia entre 0 e H (a entropia), com 0 somente se independente e H somente se for dependente deterministicamente.

Uma diferença da covariância é que o "sinal" da dependência é ignorado. Por exemplo, , mas . $Cov(X, -X) = -Cov(X, X) = -Var(X)$ $MI(X, -X) = MI(X, X) = H(X)$

SheldonCooper
fonte

Você poderia expandir como esse conceito fornece uma resposta para a pergunta?

Onestop

Por favor, dê uma olhada no seguinte artigo da ciência - ele aborda exatamente o seu ponto:

Detectando novas associações em grandes conjuntos de dados por David N. Reshef et al.

Do resumo:

Identificar relacionamentos interessantes entre pares de variáveis em grandes conjuntos de dados é cada vez mais importante. Aqui, apresentamos uma medida de dependência para relacionamentos de duas variáveis: o coeficiente de informação máxima (CIM). O MIC captura uma ampla gama de associações funcionais e não, e para os relacionamentos funcionais fornece uma pontuação que é aproximadamente igual ao coeficiente de determinação (R ^ 2) dos dados em relação à função de regressão. O MIC pertence a uma classe maior de estatísticas máximas de exploração não paramétrica (MINE) com base em informações para identificar e classificar relacionamentos. Aplicamos MIC e MINE a conjuntos de dados sobre saúde global, expressão gênica, beisebol da liga principal e microbiota intestinal humana e identificamos relacionamentos conhecidos e novos.

Você encontra material suplementar aqui: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Os autores ainda fornecem uma ferramenta gratuita incorporando o novo método que pode ser usado com o R e o Python: http://www.exploredata.net/

vonjd
fonte