Qual é uma boa maneira de medir a “linearidade” de um conjunto de dados?

8

Eu tenho um conjunto de dados empiricamente reunido que relaciona duas variáveis. Em um intervalo pequeno, o relacionamento parece linear; no entanto, em um intervalo maior, há claramente um relacionamento polinomial de segunda ordem, como pode ser visto na imagem em http://imgur.com/W7f9p .

Estou tentando obter uma medida de linearidade para diferentes faixas consideradas. Por exemplo, em 20 <x <60 ou 100 <x <120, é muito linear, mas em 20 <x <180, não é muito linear. Tentei ajustar uma linha reta aos dados e calcular os dados R ^ 2 (qualidade do ajuste), mas isso mostra que a linha reta no intervalo maior tem um ajuste melhor do que no intervalo menor. Embora isso possa ser verdade no MS Excel, a partir da imagem, fica claro que o intervalo maior é menos linear ... se você segurar a lateral de um pedaço de papel contra os pontos.

Existe uma maneira melhor de medir a "linearidade" de um conjunto de dados?

user714852
fonte
Essa pergunta provavelmente deve (e provavelmente será) migrada para o site de estatísticas. Há uma tonelada de ótimos softwares de estatísticas gratuitamente por aí. Você pode procurar o programa R e experimentá-lo.
Você pode estar interessado neste artigo ncbi.nlm.nih.gov/pubmed/16724492 A idéia é montar um modelo linear por partes e para testar a igualdade de encostas (não comentar mais porque eu não li)
Stéphane Laurent
2
Você está realmente interessado na linearidade dos dados ou na linearidade da curva subjacente ? A distinção é que, como os dados (podem) amostram a curva de maneira desigual, uma medida baseada nos dados varia de acordo com a natureza da amostragem, enquanto que uma estimativa da linearidade da curva seria mais estável sob as alterações do programa de amostragem. Além disso, você concebe a "linearidade" como uma propriedade absoluta (e, portanto, dependente das unidades de medida) ou é uma propriedade da forma da curva (e, portanto, invariante sob transformações afins de x e y)?
whuber

Respostas:

6

Ajuste uma função quadrática em vez de linear. O valor absoluto da estimativa do coeficiente mais alto do quadrático serve como uma medida sensível de linearidade, que é zero se os dados estiverem exatamente em uma linha. Além disso, se os dados vierem de um modelo linear com ruído gaussiano, o teorema de Gauss-Markov garante que as estimativas do coeficiente são imparciais, portanto, sob a repetição do ajuste com vários dados da mesma distribuição de modelo, o valor esperado do coeficiente será zero.

Obviamente, em um único ajuste, normalmente não se obtém zero, portanto, seria necessário usar algum teste para a significância dos coeficientes.

Arnold Neumaier
fonte
você poderia explicar um pouco por que serve como uma medida sensata de linearidade?
Lucas Reis
1
@ LucasReis: eu adicionei algumas justificativas.
Arnold Neumaier 6/06/12
(+1) Parece-me que qualquer medida razoável de "linearidade" deve ser invariável sob mudanças de localização e escala (tanto nas variáveis ​​dependentes quanto nas independentes). Isso exclui o uso do termo quadrático, mas sugere que pode haver mérito em considerar o uso do termo quadrático quando variáveis padronizadas são usadas na regressão. Note, no entanto, que o termo quadrático não captura desvios complexos da linearidade, como um padrão de onda.
whuber
@ whuber: bom ponto. A resposta de Michael Chernick tem essa propriedade e, portanto, deve ser preferida à minha.
Arnold Neumaier
x|ρ|1|rho|0 0
4

Um caminho a seguir seria executar uma regressão hierárquica com a variável do eixo Y como resultado / critério. Na etapa / bloco 1, insira sua variável X como preditora e, na etapa / bloco 2, insira um termo do produto (X ao quadrado ou multiplicado contra ele mesmo). O termo ao quadrado X representa seu componente quadrático. Os pesos de regressão padronizados (betas) para X e X ao quadrado dariam uma noção da "força" dos componentes linear e quadrático em relação um ao outro, e a alteração no R-quadrado do passo / bloco 1 para o passo / bloco 2 é uma indicação de quão melhor o modelo se ajusta aos dados quando você adicionou no componente quadrático.

Veja o cap. 8 em Keith, TZ (2005). Regressão múltipla e além. Allyn & Bacon. 978-0205326440

Douglas Maynard
fonte
1

A melhor medida de linearidade entre duas variáveis ​​x e y é o coeficiente de correlação do momento do produto Pearson. Quanto mais próximo estiver de 1 em valor absoluto, mais próximo estará o ajuste de uma linha reta perfeita. Agora, se você acha que existe uma boa linearidade em uma sub-região, calcule a correlação apenas para esses pares na sub-região. Se houver uma mudança de forma fora dessa região, ela deverá aparecer em uma queda na correlação quando todos os dados forem incluídos.

Michael R. Chernick
fonte
(+1) en.wikipedia.org/wiki/… explica a noção.
Arnold Neumaier
0

As ferramentas estatísticas padrão são o coeficiente de correlação (consulte a resposta de Michael Chernick), que é um valor entre [-1,1] e é independente da unidade. Relacionada ao coeficiente de correlação está a covariância. A covariância é afetada pelas unidades, mas pode ser mais fácil de interpretar. No entanto, não gosto de nenhuma dessas opções no caso geral. Não gosto deles porque não são independentes da transformação conforme. Considere que uma linha reta horizontal ou vertical é considerada não linear por ambas as medidas.

Uma opção melhor sem unidade é usar uma decomposição de valor singular (SVD). O SVD divide os dados em partes classificadas por magnitude de sua contribuição para o todo. A razão do maior número singular para o segundo maior número singular é, portanto, uma métrica de linearidade. Observe que, para usar esse método, você deve primeiro centralizar os dados (fazer com que as coordenadas X, Y, Z, etc médias sejam iguais a zero).

Exemplo: Pts: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Pontos centralizados: 9.792639127 0,656480018; -0,340591673 -1,68817349; -4,519928343 -1,801499913; -4,932119113 2,833193384;

Matriz SVD, D: 11.86500017 0; 0 3.813448344

Proporção de valores singulares 3.111357

A proporção acima pode ser interpretada grosseiramente como sendo os dados três vezes mais longos na direção da linha de melhor ajuste que ela é linear.

Para uma solução com unidades que possuem unidades e não requer um SVD. Faça algum ajuste de linha que tenha o centro da linha como um dos parâmetros. Usar os dados centralizados acima é simples: linha pt = 0 0 (sempre o caso para dados centralizados) direção da linha = -0.999956849 -0.009289783

Vetores do centro da linha para cada ponto são as coordenadas centralizadas dos pontos. Encontre os comprimentos da projeção desses vetores na linha (valor absoluto do vetor pontilha a direção da linha) e o comprimento do componente vetorial perpendicular (comprimento da direção da linha transversal do vetor). Comprimento Paralelo, Comprimento Perpendicular 9.798315123, 0.565480194; 0,356259742, 1,684936621; 4.536468847, 1.759433021; 4,905586534, 2,878889448;

O máximo de projeções paralelas é o trecho de dados ao longo da linha. O comprimento máximo da projeção perpendicular é uma medida da não linearidade. A proporção dos dois é uma aproximação da relação de valores singulares acima.

Notas 1. Invariância afim na linearidade não é possível. Considere, em uma transformação afim, poderíamos escalar todos os eixos de coordenadas, exceto um, próximo a zero (tornando qualquer conjunto de pontos linear). Portanto, a invariância conforme é o melhor que podemos fazer. 2. Esses métodos NÃO são ROBUSTAIS para outlier de dados. 3. Exemplos são 2D, mas generalizados para N-dimensional.

Orrin Thomas
fonte
Eu acho que você quis dizer que r é em [-1,1] não [0,1]
mdewey