Exemplos de dados independentes e não correlacionados na vida real e maneiras de medi-los / detectá-los

20

Sempre ouvimos sobre esse vetor de dados VS esse outro vetor de dados independente um do outro ou não correlacionado etc., e embora seja fácil encontrar a matemática com relação a esses dois conceitos, quero associá-los a exemplos de vida, e também encontrar maneiras de medir esse relacionamento.

Desse ponto de vista, estou procurando exemplos de dois sinais com as seguintes combinações: (começarei com alguns):

  • Dois sinais independentes E (necessariamente) não correlacionados:

    • O barulho de um motor de carro (chame de ) e sua voz ( ) enquanto você está falando.v1[n]v2[n]
    • Uma gravação de umidade todos os dias ( ) e o índice dow-jones ( ).v1[n]v2[n]

Q1) Como você mede / prova que eles são independentes com esses dois vetores em mãos? Sabemos que independência significa que o produto de seus PDFs é igual ao PDF conjunto, e isso é ótimo, mas com esses dois vetores em mãos, como provar a sua independência?

  • Dois sinais que NÃO são independentes, mas ainda não correlacionados:

Q2) Não consigo pensar em exemplos aqui ... quais seriam alguns exemplos? Sei que podemos medir a correlação tomando a correlação cruzada de dois desses vetores, mas como provaríamos que eles também NÃO são independentes?

  • Dois sinais que estão correlacionados:
    • Um vetor medindo a voz de uma cantora de ópera no salão principal, , enquanto alguém grava sua voz de algum lugar dentro do prédio, digamos na sala de ensaios ( ).v1[n]v2[n]
    • Se você medisse continuamente sua frequência cardíaca em seu carro ( ) e também medisse a intensidade das luzes azuis no seu pára-brisa traseiro ( ) ... Suponho que elas estejam muito correlacionadas. . :-)v 2 [ n ]v1[n]v2[n]

Q3) Em relação ao q2, mas no caso de medir a correlação cruzada desse ponto de vista empírico, é suficiente olhar para o produto escalar desses vetores (já que esse é o valor no pico da correlação cruzada)? Por que nos importamos com outros valores na função cross-corr?

Mais uma vez obrigado, quanto mais exemplos, melhor para a construção da intuição!

Spacey
fonte
@DilipSarwate Obrigado Dilip, vou dar uma olhada nisso. Por enquanto, alguns exemplos seriam bons.
Spacey
Você não pode "provar" que eles são independentes da mesma maneira que mesmo uma pesquisa bem construída não pode "provar" como todo mundo vai votar - e pelos mesmos motivos.
21712 Jim Clay
@JimClay Sinta-se à vontade para relaxar o critério 'provar' - o que estou tentando entender são maneiras de medir / quantificar a independência. Muitas vezes ouvimos sobre isso e aquilo ser independente, bem, como eles sabem disso? Que fita métrica está sendo usada?
Spacey
Eu gostaria de saber se a correlação cruzada pode ser usada para dois sinais analógicos, um de alta resolução e outro de baixa resolução para fins de análise.
Se tivermos alguma variável aleatória X e construir 2 sinais a ** = (x) e b ** ** = f 2 (x) com f 1 e f 2 sendo ortogonais e ** x = a + bf1f2f1f2 . Isso implica que esses sinais são independentes? Isso requer algumas condições adicionais? Essa propriedade seria interessante porque evita a construção de pdf conjunto de a e b .
Mladen

Respostas:

9

Alguns elementos ... (Eu sei que isso não é exaustivo, uma resposta mais completa provavelmente deve mencionar momentos)

Q1

Para verificar se duas distribuições são independentes, é necessário medir a semelhança entre a distribuição conjunta e o produto da distribuição marginal p ( x ) × p ( y ) . Para esse fim, você pode usar qualquer distância entre distribuições. Se você usar a divergência Kullback-Leibler para comparar essas distribuições, considerará a quantidade:p(x,y)p(x)×p(y)

xyp(x,y)registrop(x,y)p(x)p(y)dxdy

E você terá reconhecido ... a informação mútua! Quanto menor, mais independentes são as variáveis.

Na prática, para calcular essa quantidade a partir de suas observações, você pode estimar as densidades , p ( y ) , p ( x , y ) dos seus dados usando um estimador de densidade do Kernel e fazer uma integração numérica em uma grade fina ; ou apenas quantifique seus dados em N compartimentos e use a expressão das Informações mútuas para distribuições discretas.p(x)p(y)p(x,y)N

Q2

Na página da Wikipedia sobre independência estatística e correlação:

Gráficos de distribuição

No excepção do último exemplo, estes 2D distribuições tem não correlacionado (matriz covariância diagonal), mas não independente, marginal distribuições p ( x ) e P ( Y ) .p(x,y)p(x)p(y)

Q3

De fato, existem situações em que você pode examinar todos os valores das funções de correlação cruzada. Eles surgem, por exemplo, no processamento de sinais de áudio. Considere dois microfones capturando a mesma fonte, mas distantes de alguns metros. A correlação cruzada dos dois sinais terá um pico forte no atraso correspondente à distância entre microfones dividida pela velocidade do som. Se você apenas observar a correlação cruzada no atraso 0, não verá que um sinal é uma versão com mudança de tempo do outro!

pichenettes
fonte
Obrigado, pichenettes: 1) Você pode, por favor, elaborar seu primeiro ponto - estou realmente com dificuldades para entender como, a partir de dois vetores de dados, x [n] e y [n], é possível obter o PDF CONJUNTO , . Eu posso entender como tirar um histograma de x [n] me dará pdf de X, ( p (x} ) e o mesmo com Y, mas como diabos alguém cria uma junta com dois vetores? pedindo concretamente -.. mapeamento concreto exato de um PDF a partir de amostras observadas Isto é o que está me confundindo a mais (cont)p(x,y)p (x}
Spacey
(continuação) 2) Então, para resumir: Se a matriz de covariância de x e y é diagonal, então elas não estão correlacionadas, mas NÃO são necessariamente independentes independentemente corretas? Testar a independência foi o problema com a pergunta de acompanhamento (1). No entanto, se mostrarmos que eles são independentes, é claro que sua matriz de covariância tem que ser diagonal. Eu entendi certo? Qual é um exemplo de 2 sinais físicos que posso medir na vida real que seriam dependentes, mas não correlacionados? Obrigado novamente.
Spacey
1
Digamos que você tenha dois sinais e y n representados como vetores de N elementos. Você pode obter uma estimativa de p ( x , y ) usando, por exemplo, um estimador de densidade do Kernel: p ( x , y ) = i 1xnynNp(x,y)ondeKé uma função do Kernel. Ou você pode usar a mesma técnica para criar um histograma, mas em 2D. Construa uma grade retangular, conte quantos pares(xn,yn)caem em cada célula da grade e usep(x,y)=Cp(x,y)=i1NK(xxi,yyi)K(xn,yn) que N é o tamanho dos seus sinais eCé o número de elementos na célula associados ao ponto(x,y). p(x,y)=CNC(x,y)
Pichenettes
1
"2 sinais físicos que seriam dependentes, mas não correlacionados": digamos que invadimos o GPS de um táxi de Nova York para registrar um histórico (latitude, longitude) de sua posição. Há uma boa chance de o lat., Longo. os dados não serão correlacionados - não há "orientação" privilegiada da nuvem de pontos. Mas dificilmente será independente, pois, se lhe pedissem para adivinhar a latitude do táxi, você poderia adivinhar muito melhor se conhecesse a longitude (você poderia então olhar para um mapa e descartar o [lat, longos] ocupados por edifícios).
Pichenettes
Outro exemplo: dois senos acenam em um múltiplo inteiro da mesma frequência. Correlação nula (a base de Fourier é ortonormal); mas se você conhece o valor de um, existe apenas um conjunto finito de valores que o outro pode receber (pense em um gráfico de Lissajous).
Pichenettes
5

Inferir se dois sinais são independentes é muito difícil de fazer (dadas observações finitas) sem nenhum conhecimento / premissa prévia.

Duas variáveis ​​aleatórias e Y são independentes se o valor de X não fornecer nenhuma informação sobre o valor de Y (ou seja, não afeta nossa distribuição de probabilidade anterior para Y ). Isso é equivalente a qualquer transformação não linear de X e Y não estar correlacionada, isto é, cov ( f 1 ( X ) , f 2 ( Y ) ) = E ( f 1 ( X ) , f 2 ( Y )XYXYYXY para qualquer f 1 e f 2 não linearassumindo que wlog ambas as variáveis ​​têm média zero. A diferença entre independência e não correlação é que X e Y não são correlacionados se o acima for válido, somente paraa função de identidade f 1 ( x ) = f 2 ( x ) = x .

cov(f1(X),f2(Y))=E(f1(X),f2(Y))=0
f1f2XYf1(x)=f2(x)=x

Se assumirmos Gaussianidade conjunta, todos os momentos conjuntos maiores que a ordem 2 serão iguais a zero e, neste caso, não correlacionados, implica independentes. Se não tivermos suposições anteriores, a estimativa dos momentos conjuntos nos dará informações sobre 'quão dependentes' eles são uns dos outros.E(XiYj)

Podemos generalizar isso para os sinais e Y ( t ) considerando os espectros cruzados S X , Y ( f ) , S X 2 , Y ( f ) , S X , Y 2 ( f ) ... em todas as frequências f .X(t)Y(t)

SX,Y(f),SX2,Y(f),SX,Y2(f)
f

Exemplo :

X(t)=sin(2πft)
Y(t)=sin(2πftk)
kZk1X(t)Y(t)sin(kx)sin(x)
Y(t)=f(X(t))
f

X(t)Y(t)

rwolst
fonte
Você pode, por favor, elaborar o que exatamente os espectros cruzados de Xx2,Y(f)é exatamente? Obrigado.
Spacey
pt.wikipedia.org/wiki/Cross-spectrum Onde estamos considerando o espectro cruzado entre os sinaisX2(t) e Y(t).
Rwolst