Eu produzi modelos aditivos generalizados para o desmatamento. Para explicar a autocorrelação espacial, incluímos latitude e longitude como um termo de interação suavizado (ou seja, s (x, y)).
Baseei isso na leitura de muitos artigos em que os autores dizem 'para explicar a autocorrelação espacial, as coordenadas de pontos foram incluídas como termos suavizados', mas nunca explicaram por que isso realmente explica isso. É muito frustrante. Li todos os livros que encontro sobre os GAMs na esperança de encontrar uma resposta, mas a maioria (por exemplo, Modelos Aditivos Generalizados, uma Introdução ao R, SN Wood) apenas toca no assunto sem explicar.
Eu realmente apreciaria se alguém pudesse explicar POR QUE a inclusão de contas de latitude e longitude para autocorrelação espacial e o que 'contabilização' realmente significa - é simplesmente o suficiente para incluí-lo no modelo ou se você deve comparar um modelo com s (x, y) em e um modelo sem? E o desvio explicado pelo termo indica a extensão da autocorrelação espacial?
Respostas:
A questão principal em qualquer modelo estatístico são as premissas subjacentes a qualquer procedimento de inferência. No tipo de modelo que você descreve, os resíduos são assumidos independentes. Se eles tiverem alguma dependência espacial e isso não for modelado na parte sistemática do modelo, os resíduos desse modelo também exibirão dependência espacial ou, em outras palavras, serão espacialmente autocorrelacionados. Essa dependência invalidaria a teoria que produz valores de p a partir de estatísticas de teste no GAM, por exemplo; você não pode confiar nos valores de p porque eles foram calculados assumindo independência.
Você tem duas opções principais para lidar com esses dados; i) modelar a dependência espacial na parte sistemática do modelo, ou ii) relaxar a suposição de independência e estimar a correlação entre os resíduos.
i) é o que está sendo tentado, incluindo uma suave localização espacial no modelo. ii) requer estimativa da matriz de correlação dos resíduos frequentemente durante o ajuste do modelo usando um procedimento como mínimos quadrados generalizados. O quão bem essas abordagens lidam com a dependência espacial dependerá da natureza e complexidade da dependência espacial e com que facilidade ela pode ser modelada.
Em resumo, se você pode modelar a dependência espacial entre as observações, é mais provável que os resíduos sejam variáveis aleatórias independentes e, portanto, não violem as suposições de qualquer procedimento inferencial.
fonte
"Autocorrelação espacial" significa várias coisas para várias pessoas. Um conceito abrangente, no entanto, é que um fenômeno observado em locais pode depender de alguma maneira definida de (a) covariáveis, (b) local e (c) seus valores em locais próximos . (Onde as definições técnicas variam, estão no tipo de dados que estão sendo considerados, qual "caminho definitivo" é postulado e o que significa "próximo": tudo isso precisa ser quantitativo para prosseguir.)z
Para ver o que pode estar acontecendo, vamos considerar um exemplo simples de um modelo espacial para descrever a topografia de uma região. Deixe a elevação medida em um ponto ser . Um modelo possível é que depende de alguma maneira matemática definida das coordenadas de , que irei escrever nessa situação bidimensional. Deixando representar (hipoteticamente independentes) entre as observações e o modelo (que, como de costume, é assumido como tendo expectativa zero), podemos escreverz y(z) y z (z1,z2) ε
para um modelo de tendência linear . A tendência linear (representada pelos e ) é uma maneira de capturar a ideia de que os valores próximos e , para fechem para , tendem a estar próximos um do outro. Podemos até calcular isso considerando o valor esperado do tamanho da diferença entre e , . Acontece que a matemática é muitoβ1 β2 y(z) y(z′) z z′ y(z) y(z′) E[|y(z)−y(z′)|] mais simples se usarmos uma medida ligeiramente diferente da diferença: em vez disso, calculamos a diferença quadrada esperada :
Este modelo está livre de qualquer autocorrelação espacial explícita, porque não existe um termo que relacione diretamente a valores próximos .y(z) y(z′)
Um modelo alternativo, diferente, ignora a tendência linear e supõe apenas que haja autocorrelação. Uma maneira de fazer isso é através da estrutura dos desvios . Podemos afirmar queε(z)
e, para explicar nossa antecipação da correlação, assumiremos algum tipo de "estrutura de covariância" para o . Para que isso seja espacialmente significativo, assumiremos a covariância entre e , igual a porque o tem zero médias, tende a diminuir à medida que e se tornam cada vez mais distantes. Como os detalhes não importam, vamos chamar essa covariância de . Isso é autocorrelação espacial.ε ε(z) ε(z′) E[ε(z)ε(z′)] ε z z′ C(z,z′) De fato, a correlação (usual de Pearson) entre e éy(z) y(z′)
Nesta notação, a diferença quadrada esperada anterior de para o primeiro modelo éy
(assumindo ) porque o em locais diferentes foi considerado independente. Escrevi vez de para indicar que esta é a função de covariância do primeiro modelo.z≠z′ ε C1 C
Quando as covariâncias do não variam drasticamente de um local para outro (na verdade, geralmente são consideradas constantes), essa equação mostra que a diferença quadrática esperada em aumenta quadraticamente com a separação entre e . A quantidade real de aumento é determinada pelos coeficientes de tendência e .ε y z z′ β0 β1
Vamos ver quais são as diferenças quadráticas esperadas nos 's para o novo modelo, modelo 2:y
Novamente, isso se comporta da maneira correta: como pensamos que deve diminuir à medida que e se tornam mais separados, a diferença quadrada esperada em 's na verdade vai -se com o aumento da separação dos locais.C2(z,z′) z z′ y
Comparando as duas expressões para nos dois modelos nos mostra que no primeiro modelo está desempenhando um papel matematicamente idêntico a no segundo modelo. (Há uma constante aditiva à espreita lá, enterrada nos diferentes significados de , mas isso não importa nesta análise.) Ergo , dependendo do modelo, correlação espacial é normalmente representado como uma combinação de uma tendência e uma estrutura de correlação estipulada para erros aleatórios.( β 1 ( z 1 - z ′ 1 ) + β 2 ( z 2 - z 2 ) ′ ) 2 - 2 C 2 ( z , z ′ ) C i ( z , z )E[(y(z)−y(z′))2] (β1(z1−z′1)+β2(z2−z2)′)2 −2C2(z,z′) Ci(z,z)
Agora, espero, temos uma resposta clara à pergunta: pode-se representar a idéia por trás da Lei da Geografia de Tobler ("tudo está relacionado a todo o resto, mas as coisas mais próximas estão mais relacionadas") de maneiras diferentes. Em alguns modelos, a Lei de Tobler é adequadamente representada pela inclusão de tendências (ou termos "à deriva") que são funções de coordenadas espaciais como longitude e latitude. Em outros, a Lei de Tobler é capturada por meio de uma estrutura de covariância não trivial entre termos aleatórios aditivos (oε ) Na prática, os modelos incorporam os dois métodos. Qual você escolhe depende do que deseja realizar com o modelo e de sua visão de como a autocorrelação espacial surge - seja implícita por tendências subjacentes ou refletindo variações que você deseja considerar aleatórias. Nenhum dos dois está sempre certo e, em qualquer problema, muitas vezes é possível usar os dois tipos de modelos para analisar os dados, entender o fenômeno e prever seus valores em outros locais (interpolação).
fonte
As outras respostas são boas. Eu só queria adicionar algo sobre 'contabilizar' a autocorrelação espacial. Às vezes, essa afirmação é feita mais fortemente ao longo das linhas de "contabilização da autocorrelação espacial não explicada pelas covariáveis".
Isso pode apresentar uma imagem enganosa do que o bom espacial faz. Não é como se houvesse uma fila ordenada na probabilidade de que o paciente esperasse pacientemente as covariáveis irem primeiro e, em seguida, o paciente esfregasse as partes "inexplicáveis". Na realidade, todos eles têm a chance de explicar os dados.
Este artigo, com um título adequadamente nomeado, apresenta a questão com muita clareza, embora seja do ponto de vista de um modelo de CAR que os princípios se apliquem aos recursos do GAM.
Adicionar erros correlacionados espacialmente pode atrapalhar o efeito fixo que você ama
A 'solução' no papel é suavizar os resíduos em vez de suavizar o espaço. Isso teria o efeito de permitir que suas covariáveis expliquem o que podem. Obviamente, existem muitas aplicações em que isso não seria uma solução desejável.
fonte
A correlação espacial é simplesmente como as coordenadas x e y se relacionam com a magnitude da superfície resultante no espaço. Portanto, a autocorrelação entre as coordenadas pode ser expressa em termos de uma relação funcional entre os pontos vizinhos.
fonte