Qual é uma estatística apropriada para medir a autocorrelação espacial de pontos com valores binários?

9

Estou tentando determinar o nível de autocorrelação espacial em um conjunto de dados pontuais. O atributo que me interessa é binário (presença / ausência de uma espécie), para o qual o Moran I não é apropriado. Por outro lado, as estatísticas de contagem conjunta, que normalmente são recomendadas para dados binários ou categóricos, aparentemente não são apropriadas para dados pontuais. Em resumo, a questão é: qual é uma estatística apropriada para medir a autocorrelação espacial global e / ou local de pontos quando o atributo de interesse é binário?

user13706
fonte

Respostas:

4

Sua afirmação de que uma estatística de contagem de junção não é apropriada para dados binários não está correta. É apenas uma questão de como a matriz de pesos espaciais (Wij) é especificada. Como em um Morna's-I, você não pode usar uma matriz de distância nesse tipo de análise. No entanto, uma matriz binária de contingência apropriada pode ser calculada usando um ponto de corte de distância. Você pode criar esse tipo de matriz de pesos espaciais, bem como conduzir uma análise de contagem de junção na biblioteca R spdep. Consulte as funções "joincount.test" e joincount.mc (para teste de permutação de Monte Carlo).

Jeffrey Evans
fonte
Obrigado, Jeffrey. As contagens conjuntas são claramente o caminho a seguir para dados binários, mas vi uma sugestão (não me lembro onde, agora) que as contagens conjuntas eram apropriadas apenas para dados de área (não pontuais). Não ficou claro para mim por que você não pôde criar a matriz de pesos usando um limite de distância e usar uma contagem conjunta, mas não consegui encontrar exemplos disso em algumas pesquisas superficiais. Existe uma referência que você possa fornecer para esse tipo de uso?
user13706
Este é um grande corpo de literatura sobre Análise de Padrões de Pontos. A estatística Join-Counts não é comumente usada e, como tal, não é muito prevalente na literatura atual. Eu voltaria ao trabalho inicial de Diggle ou Geits. Qual é o seu objetivo na quantificação da dependência espacial em dados binomiais? Você não pode usar um coeficiente de contagem de junções em algo como efeitos mistos ou modelo CAR / SAR. Aqui estão algumas informações interessantes sobre o dimensionamento de padrões de ocupação ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )
Jeffrey Evans
11
RandomForest é um modelo não paramétrico e, como tal, não é efetuado por autocorrelação. A preocupação com este modelo é a correlação dentro do conjunto de inicialização. Freqüentemente, a autocorrelação pode criar "redundância" nos seus dados, o que cria preconceito no Bootstrap. Eu examinaria com base nas distribuições condicionais de suas covariáveis. Eu tenho o código R disponível "R - Densidade de Probabilidade de Plotagem por Fator de Agrupamento" aqui: conserveonline.org/workspaces/emt/documents/all.html
Jeffrey Evans
11
Ah, eu não generalizaria a RF como uma caixa totalmente preta. De fato, não é esse o caso. Esse modelo geralmente é chamado de "caixa cinza". Como a autocorrelação primária influencia as suposições da IID nos métodos freqüentes, é uma afirmação bastante segura de que as suposições não paramétricas não são violadas.
Jeffrey Evans
11
Estamos generalizando estatísticas "não paramétricas". Isso abrange muitos métodos. Se você olhar para as provas de Brieman em 2001, verá que a RF não assume independência. O livro de Hastie, "Elements of Statistical Learning", fornece uma sólida base estatística para provar a teoria em relação aos métodos de aprendizado de máquina. Como afirmado anteriormente, a preocupação é a correlação no conjunto, que certamente pode ser causada por pseudo-replicação / autocorrelação. No entanto, essa não é uma suposição de modelo na RF. No entanto, se severo o suficiente, o efeito líquido do viés ou do excesso de ajuste é obviamente o mesmo.
Jeffrey Evans
0

Dados binários são um caso de uso normal para autocorrelação espacial. Eu acho que a maioria dos livros de análise espacial falará sobre isso. Este documento pode ser útil.

mfdev
fonte
11
A primeira página de sua referência enfatiza que "os locais de dados são regiões ", portanto parece que não se aplica a dados de ponto.
whuber