Quais métodos existem para medir a força de relacionamentos arbitrários e altamente não lineares entre duas variáveis emparelhadas? Por altamente não linear, quero dizer relacionamentos que não podem ser modelados de forma sensata ou confiável por regressão a um modelo conhecido. Estou particularmente interessado em séries temporais, mas imagino que qualquer coisa que funcione para dados bi-variáveis funcionaria aqui (se tratarmos as duas séries temporais como um conjunto de pontos de dados em pares)
Dois dos quais estou ciente são a diferença quadrática média (ou seja , erro quadrático médio , tratando uma série temporal como o valor "esperado" e uma como o observado), como covariância à distância . Que outros existem?
Esclarecimento: estou basicamente perguntando sobre dependência entre séries, onde correlação linear ou correlação não linear simples (após log, exp, trig, outras transformações analíticas simples) realmente não significa muito.
fonte
Respostas:
A regressão linear antiga simples tem uma boa interpretação não paramétrica como a tendência linear média em todos os pares de observações; veja Berman 1988, "Um teorema de Jacobi e sua generalização". Portanto, os dados não precisam parecer lineares para serem utilizados; qualquer tendência (amplamente) monotônica poderia ser resumida dessa maneira.
Você também pode usar a correlação de classificação de Spearman ... e provavelmente muito mais.
fonte
A "quantidade de relacionamento" entre duas variáveis discretasX , Y é formalmente medido por informações mútuas :I(X,Y) . Enquanto a covariância / correlação é de alguma forma a quantidade de relacionamento linear, informações mútuas são de alguma forma a quantidade de (qualquer tipo de) relacionamento. Estou colando a imagem da página da Wikipedia:
Para variáveis contínuas, os conceitos teóricos da informação também são frequentemente definidos, mas menos gerenciáveis, talvez menos significativos. Eu não quero me preocupar por enquanto. Vamos nos ater a variáveis discretas. De qualquer forma, faz sentido aproximar variáveis contínuas por discretas (usando fatias), especialmente em abordagens teóricas da informação.
O problema com os conceitos teóricos da informação é frequentemente a impraticabilidade. Ser capaz de aproximar as informações mútuas entreX e Y é o mesmo que ser capaz de encontrar uma relação não linear arbitrária entre eles: você precisa de um poder estatístico (quantidade de dados) muito além do que é razoável: para qualquer valor possível para x , você precisa de muitas (digamos, 1000) amostras para calcular uma estimativa de cada P(Y=y|X=x) . Isso não é possível na maioria dos problemas de aprendizado de máquina ou análise estatística. É meio lógico: se você permitir que um modelo possa expressar "qualquer possibilidade", ele poderá ser treinado apenas por uma quantidade de dados que cobre qualquer possibilidade várias vezes.
Mas talvez tal abordagem seja possível, para variáveis de baixa dimensão, se você aplicar baixa precisão: decomponha os domínios deX e Y em um número de fatias pequenas o suficiente para que seus dados sejam aceitáveis. De qualquer forma, acho que isso requer alguma pesquisa.
fonte
Eventualmente, a forma mais geral de uma função injetiva é
e você pode usar uma versão discreta dessa função como modelo para seus dados.
Em seguida, o problema se reduz à determinação dasy para regiões separadas a<x<b .
O método não é poderoso devido à alta quantidade de graus de liberdade no modelo. Embora isso também seja inerente ao problema que deseja um alto grau de liberdade (e generalidade) no tipo de funções que pode descrever o modelo para os dados.
Para casos mais específicos, melhorias podem ser feitas.
fonte
A correlação de Spearman, mencionada em outra resposta, se encaixa no projeto. É calculado simplesmente convertendo os dados em classificações e localizando a correlação de Pearson para as classificações. Ele pode detectar qualquer associação monotônica.
Há também a correlação de Kendall. A correlação de Kendall tem uma boa interpretação como (uma versão redimensionada) da probabilidade de classificar os casos em uma variável concordar em classificá-los em outra variável. A correlação de Spearman, por outro lado, é um pouco opaca - quem pensa nos dados em termos de relações lineares entre as fileiras? A correlação de Kendall não é "rápida de calcular" em termos de complexidade computacional (éO(nlogn) enquanto Spearman éO(n) ), mas não requer julgamento humano para calcular e já foi implementado em muitos softwares de estatística. Com uma máquina moderna, é improvável que a complexidade assintomática seja importante, exceto com os maiores conjuntos de dados.
fonte
Não está totalmente claro o que você está tentando medir, mas tentarei fornecer informações que possam ajudar. Existem medidas de correlação como o Alpha de Cronback que podem ser usadas para avaliar a consistência / relação interna entre um conjunto de variáveis. Você também pode usar itens como modelos gerais de aditivos (GAMs) para testar se a estimativa funcional é constante. Isso implicaria nenhuma relação entre suas variáveis. Veja a resposta aqui para uma discussão sobre isso: Como testar uma associação não linear?
fonte
Você pode tentar o coeficiente máximo de informações . Ele supera os métodos selecionados no artigo e funciona bem na detecção de relacionamentos não lineares entre duas variáveis aleatórias.
fonte
Não posso comentar, portanto, tenho que postar a resposta. Dê uma olhada no Dynamic Time Warping, algoritmo simples que pode meio que detectar / comparar padrões entre duas séries temporais, que podem ter granularidades ainda diferentes. https://en.wikipedia.org/wiki/Dynamic_time_warping
fonte