Sempre ouvimos sobre esse vetor de dados VS esse outro vetor de dados independente um do outro ou não correlacionado etc., e embora seja fácil encontrar a matemática com relação a esses dois conceitos, quero associá-los a exemplos de vida, e também encontrar maneiras de medir esse relacionamento.
Desse ponto de vista, estou procurando exemplos de dois sinais com as seguintes combinações: (começarei com alguns):
Dois sinais independentes E (necessariamente) não correlacionados:
- O barulho de um motor de carro (chame de ) e sua voz ( ) enquanto você está falando.
- Uma gravação de umidade todos os dias ( ) e o índice dow-jones ( ).
Q1) Como você mede / prova que eles são independentes com esses dois vetores em mãos? Sabemos que independência significa que o produto de seus PDFs é igual ao PDF conjunto, e isso é ótimo, mas com esses dois vetores em mãos, como provar a sua independência?
- Dois sinais que NÃO são independentes, mas ainda não correlacionados:
Q2) Não consigo pensar em exemplos aqui ... quais seriam alguns exemplos? Sei que podemos medir a correlação tomando a correlação cruzada de dois desses vetores, mas como provaríamos que eles também NÃO são independentes?
- Dois sinais que estão correlacionados:
- Um vetor medindo a voz de uma cantora de ópera no salão principal, , enquanto alguém grava sua voz de algum lugar dentro do prédio, digamos na sala de ensaios ( ).
- Se você medisse continuamente sua frequência cardíaca em seu carro ( ) e também medisse a intensidade das luzes azuis no seu pára-brisa traseiro ( ) ... Suponho que elas estejam muito correlacionadas. . :-)v 2 [ n ]
Q3) Em relação ao q2, mas no caso de medir a correlação cruzada desse ponto de vista empírico, é suficiente olhar para o produto escalar desses vetores (já que esse é o valor no pico da correlação cruzada)? Por que nos importamos com outros valores na função cross-corr?
Mais uma vez obrigado, quanto mais exemplos, melhor para a construção da intuição!
fonte
Respostas:
Alguns elementos ... (Eu sei que isso não é exaustivo, uma resposta mais completa provavelmente deve mencionar momentos)
Q1
Para verificar se duas distribuições são independentes, é necessário medir a semelhança entre a distribuição conjunta e o produto da distribuição marginal p ( x ) × p ( y ) . Para esse fim, você pode usar qualquer distância entre distribuições. Se você usar a divergência Kullback-Leibler para comparar essas distribuições, considerará a quantidade:p ( x , y) p ( x ) × p ( y)
E você terá reconhecido ... a informação mútua! Quanto menor, mais independentes são as variáveis.
Na prática, para calcular essa quantidade a partir de suas observações, você pode estimar as densidades , p ( y ) , p ( x , y ) dos seus dados usando um estimador de densidade do Kernel e fazer uma integração numérica em uma grade fina ; ou apenas quantifique seus dados em N compartimentos e use a expressão das Informações mútuas para distribuições discretas.p ( x ) p(y) p(x,y) N
Q2
Na página da Wikipedia sobre independência estatística e correlação:
No excepção do último exemplo, estes 2D distribuições tem não correlacionado (matriz covariância diagonal), mas não independente, marginal distribuições p ( x ) e P ( Y ) .p(x,y) p(x) p(y)
Q3
De fato, existem situações em que você pode examinar todos os valores das funções de correlação cruzada. Eles surgem, por exemplo, no processamento de sinais de áudio. Considere dois microfones capturando a mesma fonte, mas distantes de alguns metros. A correlação cruzada dos dois sinais terá um pico forte no atraso correspondente à distância entre microfones dividida pela velocidade do som. Se você apenas observar a correlação cruzada no atraso 0, não verá que um sinal é uma versão com mudança de tempo do outro!
fonte
Inferir se dois sinais são independentes é muito difícil de fazer (dadas observações finitas) sem nenhum conhecimento / premissa prévia.
Duas variáveis aleatórias e Y são independentes se o valor de X não fornecer nenhuma informação sobre o valor de Y (ou seja, não afeta nossa distribuição de probabilidade anterior para Y ). Isso é equivalente a qualquer transformação não linear de X e Y não estar correlacionada, isto é, cov ( f 1 ( X ) , f 2 ( Y ) ) = E ( f 1 ( X ) , f 2 ( Y )X Y X Y Y X Y
para qualquer f 1 e f 2 não linearassumindo que wlog ambas as variáveis têm média zero. A diferença entre independência e não correlação é que X e Y não são correlacionados se o acima for válido, somente paraa função de identidade f 1 ( x ) = f 2 ( x ) = x .
Se assumirmos Gaussianidade conjunta, todos os momentos conjuntos maiores que a ordem 2 serão iguais a zero e, neste caso, não correlacionados, implica independentes. Se não tivermos suposições anteriores, a estimativa dos momentos conjuntos nos dará informações sobre 'quão dependentes' eles são uns dos outros.E(XiYj)
Podemos generalizar isso para os sinais e Y ( t ) considerando os espectros cruzados S X , Y ( f ) , S X 2 , Y ( f ) , S X , Y 2 ( f ) ... em todas as frequências f .X(t) Y(t)
Exemplo :
fonte