Modelo de regressão e autocorrelação espacial

15

Eu usei o OLS e o GWR para validar as dependências entre dois bancos de dados distintos. O quadrado residual para GWR é 0,82, tornando-o o modelo de regressão correto a ser usado para determinar a relação entre os dois conjuntos de dados.

O que eu queria saber é que GWR é regressão local e OLS é regressão global, que deve ser usada onde e quando?

O que realmente significa se o I de Moran para o modelo GWR for Random?

Sam007
fonte

Respostas:

13

Quais são esses procedimentos

Embora o OLS e o GWR compartilhem muitos aspectos de sua formulação estatística, eles são usados ​​para diferentes propósitos:

  • O OLS modela formalmente um relacionamento global de um tipo específico. Em sua forma mais simples, cada registro (ou caso) no conjunto de dados consiste em um valor, x, definido pelo pesquisador (geralmente chamado de "variável independente") e outro valor, y, que é observado (a "variável dependente" ) O OLS supõe que y é aproximadamenterelacionados a x de uma maneira particularmente simples: ou seja, existem números (desconhecidos) 'a' e 'b' para os quais a + b * x será uma boa estimativa de y para todos os valores de x nos quais o pesquisador possa estar interessado . A "boa estimativa" reconhece que os valores de y podem e irão variar de qualquer previsão matemática porque (1) eles realmente fazem - a natureza raramente é tão simples quanto uma equação matemática - e (2) y é medido com alguma erro. Além de estimar os valores de aeb, o OLS também quantifica a quantidade de variação em y. Isso oferece ao OLS a capacidade de estabelecer a significância estatística dos parâmetros a e b.

Aqui está um ajuste do OLS:

insira a descrição da imagem aqui

  • O GWR é usado para explorar relacionamentos locais . Nesse cenário, ainda existem pares (x, y), mas agora (1) normalmente, x e y são observados - nenhum pode ser determinado previamente por um pesquisador - e (2) cada registro possui uma localização espacial, z . Para qualquer local, z (nem sempre onde os dados estão disponíveis), o GWR aplica o algoritmo OLS aos valores de dados vizinhos para estimar uma relação específica de local entre y e x na forma y = a (z) + b (z) * x. A notação "(z)" enfatiza que os coeficientes aeb variam entre os locais. Como tal, o GWR é uma versão especializada de smoothers com ponderação localem que apenas as coordenadas espaciais são usadas para determinar bairros. Sua saída é usada para sugerir como os valores de x e y se espalham por uma região espacial. Vale ressaltar que, muitas vezes, não há razão para escolher qual de 'x' e 'y' devem desempenhar o papel de variável independente e variável dependente na equação, mas quando você alterna esses papéis, os resultados mudam ! Essa é uma das muitas razões pelas quais a GWR deve ser considerada exploratória - uma ajuda visual e conceitual para a compreensão dos dados - em vez de um método formal.

Aqui está um liso ponderado localmente. Observe como ele pode acompanhar as aparentes "manobras" nos dados, mas não passa exatamente por todos os pontos. (Isso pode ser feito para passar pelos pontos ou seguir manobras menores, alterando uma configuração no procedimento, exatamente como a GWR pode seguir dados espaciais mais ou menos exatamente, alterando as configurações em seu procedimento.)

Lowess

Intuitivamente, pense no OLS como ajustando uma forma rígida (como uma linha) ao gráfico de dispersão de pares (x, y) e a GWR como permitindo que essa forma se mova arbitrariamente.

Escolhendo entre eles

No presente caso, embora não esteja claro o que "dois bancos de dados distintos" possam significar, parece que o uso do OLS ou do GWR para "validar" um relacionamento entre eles pode ser inapropriado. Por exemplo, se as bases de dados representam observações independentes da mesma quantidade para o mesmo conjunto de locais, então (1) OLS é provavelmente adequada devido tanto x (os valores em um banco de dados) e Y (os valores em outro banco de dados) deve ser concebido como variável (em vez de pensar em x como fixo e representado com precisão) e (2) GWR é bom para explorar a relação entre x e y, mas não pode ser usado para validarqualquer coisa: é garantido encontrar relacionamentos, não importa o quê. Além disso, como observado anteriormente, os papéis simétricos de "dois bancos de dados" indicam que um pode ser escolhido como 'x' e o outro como 'y', levando a dois possíveis resultados de GWR que garantem diferir.

Aqui está um suave ponderado localmente dos mesmos dados, revertendo os papéis de x e y. Compare isso com o gráfico anterior: observe como o ajuste geral é mais acentuado e como também difere nos detalhes.

Lowess 2

Diferentes técnicas são necessárias para estabelecer que dois bancos de dados estejam fornecendo as mesmas informações, ou para avaliar seu viés relativo ou precisão relativa. A escolha da técnica depende das propriedades estatísticas dos dados e do objetivo da validação. Como exemplo, os bancos de dados de medições químicas geralmente serão comparados usando técnicas de calibração .

Interpretando o I de Moran

É difícil dizer o que significa um "eu de Moran para o modelo GWR". Acho que a estatística I de Moran pode ter sido calculada para os resíduos de um cálculo GWR. (Os resíduos são as diferenças entre valores reais e ajustados.) I de Moran é uma medida global de correlação espacial. Se for pequeno, sugere que variações entre os valores de y e o GWR se ajustam a partir dos valores de x têm pouca ou nenhuma correlação espacial. Quando a GWR é "sintonizada" com os dados (isso envolve decidir o que realmente constitui um "vizinho" de qualquer ponto), é de esperar uma baixa correlação espacial nos resíduos, porque a GWR (implicitamente) explora qualquer correlação espacial entre x e y valores em seu algoritmo.

whuber
fonte
Então, na GWR você disse que a reversão das variáveis ​​produz resultados diferentes, mas a que gera um quadrado residual mais alto não significa que mostra uma relação mais forte entre as duas?
Sam007
Sam, um quadrado residual baixo em si não indica um relacionamento mais forte. Em particular, quando você inverte os papéis de xey, você não pode nem comparar os quadrados residuais - eles freqüentemente estão em unidades diferentes. (Por exemplo, um pode ter uma temperatura quadrada e o outro pode ter uma quantidade quadrada de chuva: como você sabe qual é o menor?) Você sempre pode reduzir um quadrado residual incluindo mais parâmetros em um modelo, mesmo que não tenham sentido. : ir longe demais nessa direção é chamado de "sobreajuste". Em certo sentido, a GWR com um curto alcance espacial é uma forma de super adaptação.
whuber
2
Você pode estar pensando no quadrado R, Sam: é uma proporção. (Eu entendi "quadrado residual" como exatamente o que diz: a soma dos quadrados dos resíduos. A maioria dos softwares de estatísticas relata essa estatística juntamente com os valores do quadrado R). Mas ainda é perigoso, e geralmente errado, comparar modelos diferentes (como como y em termos de x versus x em termos de y) em termos de R ao quadrado: consulte stats.stackexchange.com/questions/13314 . Como o GWR é exploratório, é ótimo para encontrar padrões e criar hipóteses de relacionamentos, mas (como normalmente praticado, de qualquer maneira) é inadequado para fundamentar reivindicações.
whuber
1
WOW que era realmente todas as estatísticas. Na verdade, a razão pela qual estou achando difícil é porque tenho um histórico muito ruim em estatística, por isso estou apenas confiando nos resultados dos modelos, sem entender o que eles significam exatamente. A maioria das coisas no R2 passou por cima da minha cabeça. Você poderia sugerir um bom livro para iniciantes para começar e construir minha base em estatística?
Sam007
3

O Rsquared não deve ser usado para comparar modelos. Use valores de probabilidade de log ou AIC.

Se seus resíduos no GWR são aleatórios, ou acho que parecem ser aleatórios (não estatisticamente significativos), você pode ter um modelo especificado. Pelo menos, sugere que você não possui resíduos correlatos e deve sugerir que não possui variáveis ​​omitidas.

Rich H.
fonte