Valores nulos na análise de regressão geograficamente ponderada

12

Algumas das minhas variáveis ​​explicativas têm alguns valores nulos para certos polígonos.

A Análise de regressão ponderada geograficamente pode lidar com isso ou devo remover o polígono inteiro e todos os dados (variáveis ​​dependentes e independentes para esse polígono específico)?

Mim batimentos cardíacos
fonte
O que esses nulos representam? Que um valor não é aplicável ou que existe, mas é desconhecido? Se este último, por que é desconhecido? (A principal preocupação é se o motivo de um valor ser desconhecido está relacionado ao valor em si; por exemplo, se você estiver estudando hidrologia e usando a cobertura do solo como uma variável explicativa, se a cobertura do solo for desconhecida devido a inundações, essa é uma informação importante e significa muito mais que um mero valor ausente.)
whuber
1
Obrigado whuber, Alguns dos valores nulos representam dados omitidos por questões de confidencialidade devido a pequenas unidades de agregação, outros simplesmente não estavam disponíveis, mas não como resultado das variáveis ​​explicativas que afetam outras variedades. Eu tenho valores zero verdadeiros pelos quais, o zero representa nenhum evento / taxa para esse polígono específico e também tenho alguns valores nulos nos quais os dados estão ausentes. Como tenho cerca de 29 variáveis ​​explicativas para começar, se eu retirar os polígonos para as linhas que contêm nulos, estou perdendo 8 polígonos de 279 e esperava que não precisasse. Obrigado!
I Heart Beats
Fico feliz que você tenha informações e teorias sobre a falta. Você pode ser um pouco cauteloso com essas pequenas unidades, porque os valores de praticamente qualquer variável podem estar plausivelmente relacionados ao tamanho da região que ela representa, criando assim um viés potencial no padrão de falta.
whuber
2
Você pode incorporar nulos introduzindo variáveis ​​para indicar sua presença e codificando todos os resultados nulos originais com um valor comum (cujo valor escolhido realmente não importa). Você precisará de um indicador separado para cada variável que contenha nulos. Faça o que fizer, não substitua nulos por zeros (ou qualquer outra constante)! Um nulo significa algo completamente diferente de zero.
whuber
1
@whuber Parece que pode haver comentários suficientes para escrever uma resposta sobre este.
PolyGeo

Respostas:

1

Você pode tentar adivinhar os valores 'nulos' dos dados ao redor. Seria melhor do que deixá-los de fora, porque dessa maneira você não perderá dados. Claro que você deve ter cuidado com a forma como adivinha os valores. Porque se o seu palpite é tendencioso, o seu modelo também será.

veja também: http://handbook.cochrane.org/chapter_16/16_1_2_general_principles_for_dealing_with_missing_data.htm

e:

Cuidado:

Sempre que usar shapefiles, lembre-se de que eles não podem armazenar valores nulos. Ferramentas ou outros procedimentos que criam arquivos de forma a partir de entradas não-arquivos podem, conseqüentemente, armazenar valores nulos como zero ou como um número negativo muito pequeno (-DBL_MAX = -1.7976931348623158e + 308). Isso pode levar a resultados inesperados. Consulte também: Considerações sobre geoprocessamento para saída do shapefile. ( http://desktop.arcgis.com/en/arcmap/10.3/tools/spatial-statistics-toolbox/geographically-weighted-regression.htm )

LMB
fonte