Métodos para medir a força de relações não lineares arbitrárias entre duas variáveis?

8

Quais métodos existem para medir a força de relacionamentos arbitrários e altamente não lineares entre duas variáveis ​​emparelhadas? Por altamente não linear, quero dizer relacionamentos que não podem ser modelados de forma sensata ou confiável por regressão a um modelo conhecido. Estou particularmente interessado em séries temporais, mas imagino que qualquer coisa que funcione para dados bi-variáveis ​​funcionaria aqui (se tratarmos as duas séries temporais como um conjunto de pontos de dados em pares)

Dois dos quais estou ciente são a diferença quadrática média (ou seja , erro quadrático médio , tratando uma série temporal como o valor "esperado" e uma como o observado), como covariância à distância . Que outros existem?

Esclarecimento: estou basicamente perguntando sobre dependência entre séries, onde correlação linear ou correlação não linear simples (após log, exp, trig, outras transformações analíticas simples) realmente não significa muito.

naught101
fonte
Se o seu foco estiver na previsão, você deve estar ciente da diferença entre o bom ajuste do modelo e a capacidade preditiva derivada até de um modelo linear multivariado simples. Publiquei uma pergunta sobre um assunto relacionado aqui: stats.stackexchange.com/questions/25381/… .
Robert Kubrick
Modelos não lineares são uma vasta área. Eu suspeito que você também possa estar interessado no reconhecimento de padrões, um primo próximo da modelagem não linear quando aplicado à previsão. Você pode tornar a pergunta mais específica, talvez com um exemplo do seu problema?
Robert Kubrick
1
Aparentemente não há nenhuma resposta simples :) amazon.com/Nonlinear-Series-Analysis-Holger-Kantz/dp/0521529026
Robert Kubrick
1
Não está totalmente claro o que você está tentando medir, mas tentarei fornecer informações que possam ajudar. Existem medidas de correlação como o Alpha de Cronback que podem ser usadas para avaliar a consistência / relação interna entre um conjunto de variáveis. Você também pode usar itens como modelos gerais de aditivos (GAMs) para testar se a estimativa funcional é constante. Isso implicaria nenhuma relação entre suas variáveis. Veja a resposta aqui para uma discussão sobre isso: stats.stackexchange.com/questions/35893/…
StatsStudent
1
@StatsStudent obrigado pelo link, é realmente útil. Eu acho que é a melhor resposta até agora, se você passar para uma resposta e nenhuma aparecer melhor até o prazo final, conceder-lhe-ei os pontos.
Allen Wang

Respostas:

2

A regressão linear antiga simples tem uma boa interpretação não paramétrica como a tendência linear média em todos os pares de observações; veja Berman 1988, "Um teorema de Jacobi e sua generalização". Portanto, os dados não precisam parecer lineares para serem utilizados; qualquer tendência (amplamente) monotônica poderia ser resumida dessa maneira.

Você também pode usar a correlação de classificação de Spearman ... e provavelmente muito mais.

hóspede
fonte
Obrigado, mas estou ciente disso, e não é exatamente o que eu estava pedindo (uma vez que uma linha reta é mais ou menos o modelo mais simples possível, está implícito na minha pergunta). Eu esclareci a pergunta.
precisa saber é o seguinte
2

A "quantidade de relacionamento" entre duas variáveis ​​discretas X, Yé formalmente medido por informações mútuas :I(X,Y). Enquanto a covariância / correlação é de alguma forma a quantidade de relacionamento linear, informações mútuas são de alguma forma a quantidade de (qualquer tipo de) relacionamento. Estou colando a imagem da página da Wikipedia:

insira a descrição da imagem aqui

Para variáveis ​​contínuas, os conceitos teóricos da informação também são frequentemente definidos, mas menos gerenciáveis, talvez menos significativos. Eu não quero me preocupar por enquanto. Vamos nos ater a variáveis ​​discretas. De qualquer forma, faz sentido aproximar variáveis ​​contínuas por discretas (usando fatias), especialmente em abordagens teóricas da informação.

O problema com os conceitos teóricos da informação é frequentemente a impraticabilidade. Ser capaz de aproximar as informações mútuas entreX e Y é o mesmo que ser capaz de encontrar uma relação não linear arbitrária entre eles: você precisa de um poder estatístico (quantidade de dados) muito além do que é razoável: para qualquer valor possível para x, você precisa de muitas (digamos, 1000) amostras para calcular uma estimativa de cada P(Y=y|X=x). Isso não é possível na maioria dos problemas de aprendizado de máquina ou análise estatística. É meio lógico: se você permitir que um modelo possa expressar "qualquer possibilidade", ele poderá ser treinado apenas por uma quantidade de dados que cobre qualquer possibilidade várias vezes.

Mas talvez tal abordagem seja possível, para variáveis ​​de baixa dimensão, se você aplicar baixa precisão: decomponha os domínios de X e Yem um número de fatias pequenas o suficiente para que seus dados sejam aceitáveis. De qualquer forma, acho que isso requer alguma pesquisa.

Benoit Sanchez
fonte
1

Eventualmente, a forma mais geral de uma função injetiva é

f(x)=y

e você pode usar uma versão discreta dessa função como modelo para seus dados.

Em seguida, o problema se reduz à determinação das y para regiões separadas a<x<b.

O método não é poderoso devido à alta quantidade de graus de liberdade no modelo. Embora isso também seja inerente ao problema que deseja um alto grau de liberdade (e generalidade) no tipo de funções que pode descrever o modelo para os dados.

Para casos mais específicos, melhorias podem ser feitas.

Sextus Empiricus
fonte
Meu modelo proposto foi extremamente geral. Você também pode usar splines, funções lineares por partes ou qualquer um desses tipos de funções de ajuste geral.
Sextus Empiricus
1

Precisa ser um método que seja rápido de calcular, semelhante à correlação, mas que possa detectar relações quadráticas, por exemplo.

A correlação de Spearman, mencionada em outra resposta, se encaixa no projeto. É calculado simplesmente convertendo os dados em classificações e localizando a correlação de Pearson para as classificações. Ele pode detectar qualquer associação monotônica.

Há também a correlação de Kendall. A correlação de Kendall tem uma boa interpretação como (uma versão redimensionada) da probabilidade de classificar os casos em uma variável concordar em classificá-los em outra variável. A correlação de Spearman, por outro lado, é um pouco opaca - quem pensa nos dados em termos de relações lineares entre as fileiras? A correlação de Kendall não é "rápida de calcular" em termos de complexidade computacional (éO(nlogn)enquanto Spearman éO(n)), mas não requer julgamento humano para calcular e já foi implementado em muitos softwares de estatística. Com uma máquina moderna, é improvável que a complexidade assintomática seja importante, exceto com os maiores conjuntos de dados.

Kodiologist
fonte
Se uma classificação comparativa for usada para calcular classificações, o Spearman também seránlog(n).
GeoMatt22
@ GeoMatt22 Ah, parece que a resposta cs.stackexchange à qual vinculei não levou em consideração a classificação. Portanto, a correlação de Spearman provavelmente não é mais rápida que a correlação de Kendall, afinal.
Kodiologist
1

Não está totalmente claro o que você está tentando medir, mas tentarei fornecer informações que possam ajudar. Existem medidas de correlação como o Alpha de Cronback que podem ser usadas para avaliar a consistência / relação interna entre um conjunto de variáveis. Você também pode usar itens como modelos gerais de aditivos (GAMs) para testar se a estimativa funcional é constante. Isso implicaria nenhuma relação entre suas variáveis. Veja a resposta aqui para uma discussão sobre isso: Como testar uma associação não linear?

Estatísticas
fonte
1

Você pode tentar o coeficiente máximo de informações . Ele supera os métodos selecionados no artigo e funciona bem na detecção de relacionamentos não lineares entre duas variáveis ​​aleatórias.

Marcas
fonte
0

Não posso comentar, portanto, tenho que postar a resposta. Dê uma olhada no Dynamic Time Warping, algoritmo simples que pode meio que detectar / comparar padrões entre duas séries temporais, que podem ter granularidades ainda diferentes. https://en.wikipedia.org/wiki/Dynamic_time_warping

reicja
fonte
Não estou procurando exatamente apenas séries temporais, pode haver entre dois conjuntos de variáveis.
Allen Wang
2
Entendo, então o DTW não é exatamente o que você precisa. Não poderia ser aplicada alguma abordagem de informações mútuas?
reicja