Novas maneiras de preencher valores ausentes em uma varredura

8

Estou procurando maneiras robustas de preencher valores ausentes em alguns rasters. Todos eles têm uma única camada. Os valores ausentes consistem em pixels únicos a patches de tamanho médio. Rasters têm cerca de 1000 x 1000 pixels de tamanho e os maiores patches são de 20x20 pixels.

Estou tentado a usar o aregImpute no pacote Hmisc R. Alguém já usou isso para esse fim?

essa abordagem parece muito legal, mas acho que ela serve apenas para produzir correções esteticamente agradáveis.

Explicação detalhada disso:

Todas as rasters (tenho 36 no total) compartilham a mesma extensão, elas se sobrepõem e estão alinhadas. Cada varredura é uma variável diferente, reuni variáveis ​​de várias fontes (sensoriamento remoto, topográfico e climatológico). Os rasters originais vêm em várias resoluções. O menor sendo 30m. A partir daí eles chegam a 1 km. Resamplei tudo usando convolução cúbica (todas as variáveis ​​são contínuas) para 1km. Eu tenho outra varredura de 1 km onde tenho dados de uma variável de interesse para alguns pontos amostrados. Então, eu treinei um modelo usando esses pontos e os outros rasters como covariáveis ​​para poder gerar uma varredura completa dessa variável. Infelizmente, a maioria dos covariáveis ​​tem alguns valores ausentes, na verdade não muito, mas eu gostaria de eliminar completamente o problema.

Obrigado.

ps Eu preferencialmente gostaria de usar R para isso.

JEquihua
fonte
Qual é o motivo da falta e por que você está preenchendo os valores? (Essas duas coisas são importantes na seleção de uma solução apropriada.) O que exatamente você quer dizer com "robusto"? (Tem um sentido estatístico técnico, mas que não é aparente ainda como isso se aplica aqui.)
whuber
Estou usando as camadas como covariáveis ​​para um modelo preditivo. O modelo que estou usando não lida com valores ausentes, portanto, simplesmente não calcula os pixels com um valor ausente em nenhuma das rasters, deixando buracos na minha "camada prevista". Talvez a palavra robusto tenha sido mal usada, peço desculpas. O que eu procuraria é que a imputação conserva a relação subjacente entre minhas covariáveis ​​e minha variável objetiva. Não sei ao certo como chamar isso, a suposição múltipla?
JEquihua
Dependendo da variável, a falta de sinal é causada por falha no sensor ou erro de medição substituído por um valor ausente.
JEquihua
Seus rasters se sobrepõem ou não? Se eles não se sobrepuserem, ou se a quantidade típica de sobreposição for apenas duas ou três rasters em qualquer ponto, seria difícil obter muito valor aregImpute. Caso contrário, essa é uma abordagem promissora que seria ainda mais atraente se você incluísse termos de correlação espacial no modelo.
whuber
1
Os dados ausentes devido a problemas de detecção são sempre espacialmente correlacionados. Suspeito que qualquer método razoável responsável por essa correlação, por mais simples que seja, teria um desempenho melhor do que os métodos mais sofisticados que negligenciam essa correlação. A reamostragem pode ser um problema, mas não está claro o que você fez. Uma explicação mais detalhada em sua pergunta seria bem-vinda. (Um bom princípio geral é realizar suas análises estatísticas com dados originais em vez de dados reamostrados se você puder, para evitar artefatos da reamostragem.)
whuber

Respostas:

5

Sou o autor do pacote R gapfill, que é uma ferramenta flexível para prever valores ausentes nos conjuntos de dados de sensoriamento espaço-temporal. https://CRAN.R-project.org/package=gapfill Pode ser útil no seu caso.

Para uma visão geral dos métodos publicados para prever valores ausentes nos conjuntos de dados de sensoriamento remoto, consulte a Tabela 1 da publicação correspondente https://doi.org/10.1109/TGRS.2017.2785240 .

Florian
fonte
1
Pacote interessante. Bom trabalho!
Aldo_tapia