Número mínimo de amostras para interpolação de krigagem

19

Eu obtenho alguns dados com o número de amostras com uma solicitação para interpolar usando o método kriging.
Após alguma investigação, pareceu que os resultados da krigagem (realizados no ArcGIS Geoestatistical Analyst com parâmetros padrão) não são satisfatórios. Os valores interpolados são muito diferentes das medições (especialmente as superiores) e a superfície não parece confiável. Aqui está a figura: insira a descrição da imagem aqui
suponho que o principal problema seja o número insuficiente de amostras.

Quantos pontos devemos usar para obter resultados confiáveis?
Ou talvez o método de krigagem não seja apropriado para valores tão diversos?

Marcin
fonte
Você disse que "embora as pessoas tenham conseguido com sucesso até sete pontos de dados (em uma monografia de Robert Jernigan publicada pela EPA dos EUA no final dos anos 80), ...". Mas não consigo encontrar este artigo. Você pode dar um endereço aberto para este artigo? Obrigado ...
abilici 26/02

Respostas:

30

Quando você usa "valores padrão", na verdade não está realmente krigando, está apenas aplicando o algoritmo krigando - que, como você descobriu, é ruim quando usado com esses dados.

(Vou entrar em uma caixa de sabão para uma breve discussão: na minha opinião, a maneira mais rápida de obter resultados ruins com um programa de computador é aceitar seus parâmetros padrão. O ArcGIS é um dos ambientes mais ricos e poderosos para obter resultados ruins. A moral é que não use software para trabalhos importantes até que você entenda como controlá-lo. Abaixo da caixa de sabão agora ...)

Para que o kriging funcione, é necessário realizar uma análise estatística preliminar intensiva dos dados conhecidos como "variografia". O desempenho final depende dos dados e de suas habilidades geoestatísticas. (Livros inteiros foram escritos sobre variografia, incluindo a semestral Geoestatística de Mineração de Journel & Huijbregts e Variowin de Yvan Pannatier.) Embora as pessoas tenham conseguido com sucesso apenas sete pontos de dados (em uma monografia de Robert Jernigan publicada pela EPA dos EUA no final dos anos 80) e, em princípio, você pode usar apenas dois ou três pontos (eu fiz isso para demonstrar o algoritmo ), as regras práticas na literatura variam de um mínimo de 20 a 100 pontos e o consenso parece ter cerca de 30 pontos.

No seu caso - embora você não descreva os dados - você tem alguns problemas claros, incluindo uma distribuição altamente distorcida e uma distinta falta de evidência de estacionariedade. Isso requer tratamento estatístico especial ou formas especializadas de krigagem (como um modelo linear generalizado espacial). Você não obterá bons resultados ao digitar esses dados até ter uma quantidade muito grande de dados.

A legenda sugere que você pode estar tentando criar uma grade de densidade em vez de realmente interpolar dados: embora as saídas dos dois procedimentos possam parecer iguais, elas fazem coisas distintamente diferentes e têm interpretações distintas. Você interpola quando os dados são considerados amostras de alguma superfície contínua hipotética. A interpolação prevê os valores não amostrados. Exemplos padrão incluem medições de elevação (que provam a superfície da Terra) e medições de temperatura (que provam um "campo de temperatura"). Você calcula uma densidade quando possui informações completas sobre a quantidadede algo e você deseja representar uma versão suavizada desse valor por unidade de área. (Ao contrário da interpolação, não existem valores não amostrados para prever.) O exemplo padrão é uma densidade populacional: os dados são contados de todos os indivíduos em uma área; o resultado é um mapa da densidade populacional.

whuber
fonte
6
Ótima resposta @whuber. No entanto, o número mínimo de pontos também não depende parcialmente da extensão do domínio espacial e da granulação desejada da previsão? Se você o destilar em um problema de amostragem, torna-se uma questão de capturar a população e a variação espacial na amostra.
Jeffrey Evans
@ Jeffrey Esse é parcialmente o caso. A quantidade de dados se aplica a duas coisas: a variação da previsão de krigagem (que varia no domínio espacial) e a precisão com a qual o próprio variograma pode ser estimado. O último é muitas vezes esquecido, especialmente nos tratamentos tradicionais de krigagem: é como um elefante na sala. Se você conhece o variograma correto e ele possui uma pequena relação pepita / peitoril e um amplo intervalo em relação à extensão do domínio espacial, é possível obter dados com notavelmente poucos dados, especialmente se eles amostrarem adequadamente todo o intervalo de valores dos dados.
whuber
3
Estou convencido de que qualquer pessoa que utilize o kriging deve precisar de um bom curso de geoestatística ou ter um sólido histórico em SIG / estatística. Aprender a modelar adequadamente um semivariograma requer alguma habilidade.
Mike T
1
A regra de ouro que eu tenho estudado: 30 pontos para Kriging omnidirecional e 100 para bidirecional.
jareks
1

Existem duas perguntas separadas, primeiro o número de locais de dados a serem usados ​​na estimativa / modelagem do variograma e, em segundo lugar, o número de locais de dados a serem usados ​​nas equações de krigagem para interpolar o valor em um local que não seja de dados (ou estimar o valor médio sobre uma região). Supondo que você esteja usando uma vizinhança de pesquisa em movimento, mais de 15 a 20 locais de dados na vizinhança provavelmente degradarão os resultados porque (1) apenas os locais de dados mais próximos na vizinhança de pesquisa terão pesos diferentes de zero, (2) com mais dados locais, o tamanho da matriz a ser invertida é maior e a possibilidade de uma matriz mal condicionada aumenta. O número total de locais de dados necessários para krigagem depende do número de locais a serem interpolados e dos padrões espaciais desses pontos e também dos locais de dados. Em resumo,

Com relação à estimativa / modelagem do variograma, é um problema muito diferente, veja, por exemplo

1991, Myers, DE, On Variogram Estimation in Proceedings of the First Inter. Conf. Estado. Comp., Cesme, Turquia,

30 de março a 2 de abril de 1987, Vol. II, American Sciences Press, 261-281

1987, A. Warrick e DE Myers, Otimização de locais de amostragem para cálculos de variograma Pesquisa de recursos hídricos 23, 496-500

Estes podem ser baixados em www.u.arizona.edu/~donaldm

Donald Myers
fonte