Como grade dados categóricos amostrados de forma desigual?

10

Estou procurando um método para agrupar dados categóricos. Extraí das cartas náuticas e das fichas de campo uma coleção de pontos que especificam a natureza da superfície do fundo do oceano. Esses dados são categóricos e não numéricos e não são amostrados regularmente nem mesmo aleatoriamente. Cartas náuticas são criadas para auxiliar na navegação e ancoragem; eles não são criados para mapear o habitat. Como tal, mais sondagens são feitas perto da costa, onde profundidades relativamente rasas podem representar um risco para a navegação e onde os navios tendem a ancorar. Mais longe da costa, onde as profundezas são mais do que adequadas para a navegação e a ancoragem é impraticável, as sondagens são feitas com muito menos frequência.

Alguém mais tentou criar mapas de substratos em grade a partir de cartas náuticas?

Olhei para os polígonos de Thiessen (Vornoi), mas a concentração de sondagens ao longo da costa leva a um fino "favo de mel" ao longo da costa, grandes polígonos no mar e entre longos polígonos em forma de torta que se estendem para o mar. A grade usando o vizinho mais próximo produz praticamente o mesmo resultado.

Preciso de uma maneira de limitar a influência dos pontos rasos próximos à costa - uma maneira de limitar esses longos polígonos em forma de torta. Em águas mais profundas, não espero que a natureza do fundo seja uma continuação do fundo da costa. Comecei a pensar em duas linhas - ambas usando profundidade. Uma é ponderar a escolha do vizinho 'mais próximo' usando a diferença de profundidade entre uma célula da grade e os pontos vizinhos. Outra é desmarcar pontos vizinhos que são mais do que uma tolerância especificada diferente em profundidade. Ou, talvez, em vez de uma tolerância pré-especificada, eu pudesse classificar faixas de profundidade e depois limitar a escolha de pontos vizinhos àqueles na mesma faixa de profundidade ou categoria.

Alguma idéia de como implementar uma dessas duas opções?

Desde que conversei com colegas em outros fóruns, observei algumas outras abordagens. O primeiro envolve o uso de uma barreira - o contorno de 100m de profundidade - para limitar a influência de dados próximos à costa. O desafio dessa abordagem é que qualquer uma das rotinas de interpolação da ESRI que podem usar barreiras seja projetada para trabalhar com dados contínuos em vez de descontínuos. Eu poderia usar as barreiras para dividir os pontos em margens rasas próximas e pontos mais profundos antes de criar polígonos de Thiessen. No entanto, prevejo efeitos de borda desenfreados, já que o ArcGIS cria polígonos de Thiessen para áreas retangulares e não para áreas complexas.

A segunda abordagem - sugerida por vários colegas - foi kriging. Inicialmente, havia descartado o kriging fora de controle porque só o considerei para dados contínuos. O desafio do kriging é que ele também não foi projetado para dados categóricos. Agora, eu estou olhando para cokriging com profundidade e natureza da superfície, mas qualquer tipo de kriging envolverá o uso de códigos numéricos inteiros para a natureza da superfície. Posteriormente, os códigos numéricos de ponto flutuante resultantes deverão ser reduzidos à codificação inteira original. Feio.

Alguém pode sugerir outras linhas a seguir? (Pode-se, talvez, usar a análise do terreno. Por exemplo, inclinações mais íngremes que o ângulo de repouso não podem ser sedimentos. Estou procurando algo mais simples e, de qualquer forma, não tenho dados com resolução espacial suficiente.)

Saudações,

Doug Hrynyk
fonte

Respostas:

4

A abordagem de krigagem, adequadamente implementada, é promissora.

Como ponto de partida, observe os "modelos geoestatísticos lineares generalizados" descritos por Diggle & Ribeiro em Geoestatística baseada em modelos (Springer 2007). A ideia subjacente é atraente e flexível: um processo estocástico espacial (que é espacialmente contínuo ) determina as várias probabilidades das categorias. Utiliza-se as categorias observadas em pontos irregulares para inferir propriedades estatísticas desse processo subjacente, incluindo sua estrutura de correlação espacial (variograma). Kriging então cria uma superfície de probabilidade consistente com as observações. Nesse ponto, você pode executar simulações geoestatísticas ou criar mapas relacionados às probabilidades (como mapas das categorias de probabilidade máxima, imagino).

Isso parece sofisticado, e é. No entanto, a discussão de Diggle e Ribeiro é bastante acessível - embora seja matemática e pressuponha algum conhecimento de estatística, também não depende muito - e a maioria de suas técnicas é implementada nos pacotes R que eles descrevem geoRe geoRGLM. De fato, é justo interpretar este livro como o manual para esses pacotes.

Como outros threads neste site atestam, é relativamente fácil fazer interface do R com dados GIS (incluindo shapefile e vários formatos de varredura), portanto isso não é um problema.

whuber
fonte