O RandomForest ignora a independência espacial?

8

Eu tenho 5 variáveis ​​para cada país do mundo e preciso analisar seus efeitos e interações em uma variável independente. A Random Forest seria adequada para o meu escopo, pois lida com relacionamentos não lineares e prediz a importância das variáveis. No entanto, estou me perguntando se a dependência espacial pode ser um problema. Nunca vi dependência espacial discutida em aplicativos de RF, mesmo que ela tenha sido amplamente usada para dados espaciais.

Oritteropus
fonte

Respostas:

8

Não tem nenhum problema com a autocorrelação espacial de sua resposta ou variáveis ​​explicativas. É uma técnica totalmente não paramétrica. Eu o usei para a interpolação de variáveis ​​de diversidade estrutural em todo o meu país, com base em dados in situ de uma grade regular e a introdução das coordenadas como covariáveis, produzindo melhores previsões. Isso ocorre porque a Random Forest é baseada em uma abordagem de dividir e conquistar (árvores de classificação e regressão), o que significa que separa o espaço de recursos em subconjuntos disjuntos, onde modelos mais simples (por padrão, uma média simples no caso de regressão) podem produzir boas previsões. Introduzir as coordenadas como variáveis, no meu caso, explora a autocorrelação espacial, pois faz sentido que certos subconjuntos geográficos do país se comportem de maneira homogênea.

JEquihua
fonte
Embora eu concorde com a resposta, você conhece algum estudo empírico que mostre que esse é o caso? Definitivamente, a RF tem problemas com escores de importância errados e variáveis ​​altamente correlacionadas (por exemplo, Strobl et al ).
precisa saber é o seguinte
2
Isso faz muito sentido, pois quando você cresce uma árvore, a cada divisão, deve-se decidir qual variável será usada. No caso extremo, se você tiver duas variáveis ​​perfeitamente correlacionadas, o esquema de divisão simplesmente escolheria uma delas aleatoriamente. Assim, se você treinar novamente a floresta aleatória, verá as pontuações de importância muito instáveis ​​nessas variáveis ​​correlacionadas. Eles estariam muito propensos a trocar de lugar na hierarquia.
JEquihua
@JEquihua Eu sei que estou muito atrasado para a festa, mas eu ficaria muito interessado em saber como você incorporou coordenadas como covariáveis? Estou usando o pacote randomForest no R e não conheço nenhuma opção para incluir covariáveis, no entanto, faz muito sentido, especialmente com dados correlacionados espacialmente com autocorrelação.
Kristina
Olá @Kristina. Eu apenas os apresentei como recursos adicionais, ou seja, lat e lon como duas colunas diferentes na sua mesa de trem. Isso só funciona se os dados de seu trem representarem bem o seu espaço geográfico; no meu exemplo, eu tinha cerca de 25.000 pontos localizados em uma grade regular sobre minha área de interesse.
JEquihua 3/07
@JEquihua Obrigado pela sua resposta! Eu tentei isso antes, no entanto, tive a impressão de que isso distorceu bastante o modelo. No entanto, isso pode ser devido ao fato de eu ter várias regiões independentes (áreas marinhas protegidas em todo o mundo) em meus dados. Você tem alguma sugestão de como lidar melhor com isso, pois eu gostaria muito de incluir o local. Obrigado!
217 Kristina