Por que você precisa fornecer um modelo de variograma quando está krigando?

9

Sou muito novo em estatísticas espaciais e assisto a muitos tutoriais,

Mas eu realmente não entendo por que você precisa fornecer um modelo de variograma quando krige.

Estou usando o pacote gstat no R, e este é o exemplo que eles fornecem:

library(sp)
data(meuse)
coordinates(meuse) = ~x+y
data(meuse.grid)
str(meuse.grid)
gridded(meuse.grid) = ~x+y
m <- vgm(.59, "Sph", 874, .04)
print(m)
# ordinary kriging:
x <- krige(log(zinc)~1, meuse, meuse.grid, model = m)

Alguém é capaz de explicar em algumas linhas por que você primeiro fornece o vgm? E como você define os parâmetros?

Agradeço antecipadamente! Kasper

Kasper
fonte
Para krigagem simples, o estimador é AZUL somente se a covariância média e espacial forem conhecidas antecipadamente. No kriging comum, estima-se o variograma a partir dos dados e, em seguida, a interpolação. Veja a vinheta do gstatpacote R dos mesmos dados de uso.
187 Andy W
Hey Andy, obrigado pelo seu comentário. Eu descobri na vinheta que você também pode krige sem um modelo de variograma. Eu fiz o seguinte: krige (resíduos ~ 1, temp_plot_spatial, y, nmin = 5, nmax = 10), então krige apenas olhando para no mínimo 5 vizinhos e no máximo 10. Isso faz algum sentido? O resultado foi bem legal: dropbox.com/s/7lxvfiyfl7ekhb4/…
Kasper
Acho que tenho um problema em modelar o variograma: e se você assumir que a correlação não tem nada a ver com a distância, mas com os vizinhos mais próximos?
Kasper
"e se você assumir que a correlação não tem nada a ver com a distância, mas com os vizinhos mais próximos?" - isso não é kriging então, é mais alinhado com a classificação knn. O código krige(residuals~1 ,temp_plot_spatial, y, nmin=5, nmax=10)estima variogramas locais. Por exemplo, você não possui um variograma em todo o espaço de estudo, mas calcule um novo modelo para cada local que você está tentando prever. O modelo local pega apenas os 10 valores mais próximos (já que você não especifica uma distância máxima, ele sempre deve pegar 10 valores, portanto, nmindeve ser supérfluo).
187 Andy W
11
Então, estimar variogramas locais é uma coisa lógica a se fazer. Se eles variam de acordo com certos recursos, incluindo outros preditores no modelo também é uma opção. O IDW pode ser considerado o tipo mais simples de modelo de krigagem - portanto, o IDW não deve ser melhor do que realmente estimar o variograma a partir dos dados.
Andy W

Respostas:

9

Introdução e Resumo

A Lei de Tobler da Geografia afirma

Tudo está relacionado a tudo o mais, mas coisas próximas são mais relacionadas que coisas distantes.

Kriging adota um modelo daqueles relacionamentos em que

  • "Coisas" são valores numéricos em locais na superfície da Terra (ou no espaço), geralmente representados como um plano euclidiano.

  • Estes valores numéricos são assumidos como realizações de variáveis ​​aleatórias.

  • "Relacionado" é expresso em termos das médias e covariâncias dessas variáveis ​​aleatórias.

(Uma coleção de variáveis ​​aleatórias associadas a pontos no espaço é chamada de "processo estocástico".) O variograma fornece as informações necessárias para calcular essas covariâncias.

O que é Kriging

Kriging especificamente é a previsão de coisas em lugares onde elas não foram observadas. Para tornar o processo de previsão matematicamente tratável, Kriging limita as possíveis fórmulas a serem funções lineares dos valores observados. Isso torna o problema finito para determinar quais devem ser os coeficientes. Isso pode ser encontrado exigindo que o procedimento de previsão tenha certas propriedades. Intuitivamente, uma propriedade excelente é que as diferenças entre o preditor e o valor verdadeiro (mas desconhecido) tendem a ser pequenas: ou seja, o preditor deve ser preciso . Outra propriedade altamente elogiada, mas mais questionável, é que, em média, o preditor deve ser igual ao valor real: deve ser preciso .

(A razão pela qual insistir na precisão perfeita é questionável - mas não necessariamente ruim - é que geralmente torna qualquer procedimento estatístico menos preciso: ou seja, mais variável. Ao atirar em um alvo, você prefere espalhar os acertos uniformemente ao redor do alvo. raro e raramente atingindo o centro ou você aceitaria resultados focados logo ao lado, mas não exatamente, do centro? O primeiro é preciso, mas impreciso, enquanto o segundo é impreciso, mas preciso.)

Essas suposições e critérios - que meios e covariâncias são maneiras apropriadas de quantificar a relação, que uma previsão linear funcionará e que o preditor deve ser o mais preciso possível, sujeito a ser perfeitamente preciso - levam a um sistema de equações que possui um solução única, desde que as covariâncias tenham sido especificadas de maneira consistente . O preditor resultante é, assim, chamado de "BLUP": o melhor preditor imparcial linear.

Onde o Variograma entra

Para encontrar essas equações, é necessário operacionalizar o programa descrito. Isso é feito anotando as covariâncias entre o preditor e as observações consideradas variáveis ​​aleatórias. A álgebra de covariâncias faz com que as covariâncias entre os valores observados também entrem nas equações de Kriging.

Nesse ponto, chegamos a um beco sem saída, porque essas covariâncias são quase sempre desconhecidas. Afinal, na maioria das aplicações, observamos apenas uma realização de cada uma das variáveis ​​aleatórias: nosso conjunto de dados, que constitui apenas um número em cada local distinto. Digite o variograma: essa função matemática nos diz qual deve ser a covariância entre dois valores. É restrito a garantir que essas covariâncias sejam "consistentes" (no sentido de que nunca fornecerá um conjunto de covariâncias matematicamente impossíveis: nem todas as coleções de medidas numéricas de "parentesco" formarão matrizes reais de covariância ). É por isso que um variograma é essencial para Kriging.

Referências

Como a pergunta imediata foi respondida, vou parar por aqui. Os leitores interessados ​​podem aprender como os variogramas são estimados e interpretados consultando bons textos, como Geoestatística de Mineração de Journel & Huijbregts (1978) ou Geoestatística Aplicada de Isaaks & Srivastava (1989). (Note-se que o processo de estimação introduz dois objetos chamado "variogramas": um empírico variograma derivada de dados e um modelo de variograma que é colocado a ele Todas as referências a "variograma" nesta resposta são para o modelo A chamada para.. vgmNa questão retorna uma representação por computador de um variograma de modelo.) Para uma abordagem mais moderna na qual a estimativa de variograma e o Kriging são combinados adequadamente, consulte Diggle &Geoestatística baseada em modelo (2007) (que também é um manual estendido para os Rpacotes GeoRe GeoRglm).


Comentários

Aliás, esteja você usando o Kriging para previsão ou algum outro algoritmo, a caracterização quantitativa da relação fornecida pelo variograma é útil para avaliar qualquer procedimento de previsão. Observe que todos os métodos de interpolação espacial são preditores desse ponto de vista - e muitos deles são preditores lineares, como IDW (Distância Inversa Ponderada). O variograma pode ser usado para avaliar o valor médio e a dispersão (desvio padrão) de qualquer um dos métodos de interpolação. Assim, tem aplicabilidade muito além do seu uso no Kriging.

whuber
fonte
Obrigado por esta resposta detalhada. Faço a mesma pergunta acima, e se eu não puder assumir que a correlação espacial é independente da localização? É correto que a modelagem do variograma não seja útil, pois eu precisaria fazer um modelo do variograma para todos os locais? É melhor usar o IDW?
Kasper
Quando você não pode assumir a estacionariedade de segunda ordem do processo, várias opções incluem (1) coletar várias realizações do processo (quando isso varia com o tempo); (2) estimar variogramas sobre sub-regiões locais (quando houver muitos dados); e (3) assumindo um modelo paramétrico de como o variograma muda com a localização (como nos modelos GARCH para processos 1D). Meus últimos comentários abordam diretamente a impraticabilidade de recorrer a algo como o IDW: se você pode ou não estimar o variograma, em princípio ele existe e, portanto, o IDW geralmente é subótimo.
whuber