RMSE entre dois rasters passo a passo

8

Alguém pode mostrar como calcular o RMSE (erro quadrático médio da raiz) entre as seguintes rasters passo a passo e discutir os valores mínimo e máximo dos resultados obtidos e como interpretá-los.

 First raster (original, 2 by 2):
 1 2
 3 4

 Second raster (obtained, 2 by 2):
 2 2
 4 1
até
fonte

Respostas:

13

Cálculo

  1. Subtraia uma varredura da outra. (A direção da subtração não importa.)

    -1 0
    -1 3

  2. Quadrado o resultado.

    1 0
    1 9

  3. Média dos valores.

    (1 + 0 + 1 + 9)/(1 + 1 + 1 + 1) = 11/4.

    (Eu escrevi isso de uma maneira sugestiva para mostrar como as células de dados ausentes podem ser manipuladas se o seu GIS não tiver essa capacidade: Crie uma grade de indicadores com 1's onde você tem dados e 0's em outro lugar. Divida a soma da sua grade pela soma da grade de indicadores. No Spatial Analyst, você pode obter as somas como somas focais.)

  4. Pegue a raiz quadrada.

    Sqrt(11/4) = 1.66

Interpretação

Esse número é uma medida da diferença típica de célula por célula entre as duas grades. Quando as grades têm centenas de valores ou mais (como a maioria), elas não exibem valores extremos ou extremos enormes e a diferença média é zero , então a regra geral padrão para interpretar o rmse é:

  • Cerca de 2/3 de todas as células diferem menos que o valor final.

  • Aproximadamente 95% de todas as células diferem menos de duas vezes a taxa.

  • Será incomum ver diferenças mais que três vezes maiores.

Em uma grade de qualquer tamanho ( por exemplo, um milhão de células), "incomum" ainda se traduz em vários milhares de células: cerca de uma fração de um por cento de todas elas.

No exemplo - que é trivialmente pequeno - sabendo que existem 4 células e a rmse é 1,66, pensaríamos "em 2/3 - digamos 2 ou 3 - das células concordam em 1,66. Provavelmente todas elas concorde em 2 * 1,66 = 3,32 ". O estado real das coisas, como podemos ver no resultado da etapa (1), é que 3/4 das células concordam com 1,66 e todas elas realmente concordam com 3.

Quando as grades variam muito e exibem grandes intervalos de valores, você pode desconfiar das regras práticas. Da desigualdade de Chebyshev você ainda sabe que

  • Não mais do que 1/4 das células diferem em mais do que o dobro da taxa.

  • Não mais que 1/9 das células diferem em mais de três vezes a taxa.

  • Em geral, escolha qualquer número k igual a 2 ou superior. Não mais que 1 / k ^ 2 das células diferem em mais de k vezes a taxa.

Essa é uma regra universal , válida para qualquer par de grades, enquanto a regra prática anterior pressupõe que a distribuição das diferenças celulares seja aproximadamente "em forma de sino" sem muitos valores extremos extremos.

Editar

As interpretações anteriores assumem que você está comparando duas grades destinadas a representar a mesma coisa, até erro de medição, para que a diferença média seja zero (ou próximo o suficiente). Quando a diferença média é apreciável (comparada ao rmse), essas interpretações estão incorretas - mas também raramente faz sentido usar o rmse. Em vez disso, (a) relataria a diferença média e (b) subtrairia seu quadrado após o passo (3). Isso fornece a diferença quadrada média residual em vez da diferença quadrada média. Sua raiz quadrada é o tamanho típico das variações entre as duas grades em relação à diferença média . Com essa ressalva, a interpretação pode usar as mesmas regras práticas de antes.

whuber
fonte
@ whuber: muito obrigado !!! existe algum livro que descreva esse processo como você faz em detalhes? ou papel? como referência. mais uma vez muito obrigado !!! eu realmente aprecio isso.
@whuber: como o cálculo mudaria se tivéssemos os seguintes rasters, raster1 (3 por 3) = {{1,2, -9999}, {2,3, -9999}, {4,5, -9999}} e raster2 (3 por 3) = {{2,2, -9999}, {- 9999,3,4}, {- 9999, -9999, -9999}}. onde nenhum valor de dados é -9999. Muito obrigado!!!
@opl A diferença dos dois é igual a {{-1,0, Nulo}, {Nulo, 0, Nulo}, {Nulo, Nulo, Nulo}}. Portanto, a diferença ao quadrado é igual a {{1,0, Nulo}, {Nulo, 0, Nulo}, {Nulo, Nulo, Nulo}} e o indicador é igual a {{1,1, Nulo}, {Nulo, 1, Nulo} , {Nulo, Nulo, Nulo}}. Suas somas são 1 e 3, respectivamente, resultando em um quadrado médio de 1/3 e, em seguida, uma rms de Sqrt (1/3).
whuber
@ whuber: é possível dizer que o valor 'rmse' resultante estará em algum intervalo específico, como digamos min 0 e max 10 ...? para que eu possa dizer que, se estiver próximo do valor mínimo, será melhor e, quando estiver mais próximo do valor máximo, estará se desviando significativamente ou vice-versa. desde já, obrigado!
@opl Normalmente, você não pode prever o rmse com antecedência, a menos que saiba algo sobre como as grades provavelmente variarão. Por exemplo, os metadados para cada grade podem fornecer uma indicação quantitativa de seu provável desvio da verdade. Digamos, cada um é um DEM e um tem um erro vertical declarado de + -15 me o outro tem um erro vertical declarado de + -20 m. Tomando-os como indicações aproximadas de desvio padrão, podemos combiná-los para estimar um erro relativo de Sqrt (15 ^ 2 + 20 ^ 2) = 25 m. Nesse caso, eu esperaria que o rmse entre os dois fosse de cerca de 25 m.
whuber