Modelo para estimativa de densidade populacional

14

Um banco de dados de (população, área, forma) pode ser usado para mapear a densidade populacional atribuindo um valor constante de população / área a cada forma (que é um polígono, como um bloco de recenseamento, área, município, estado, qualquer que seja). No entanto, as populações geralmente não são distribuídas uniformemente dentro de seus polígonos. O mapeamento dasimétrico é o processo de refinar essas estimativas de densidade por meio de dados auxiliares. É um problema importante nas ciências sociais, como indica esta revisão recente .

Suponha, então, que tenhamos disponível um mapa auxiliar da cobertura do solo (ou qualquer outro fator discreto). No caso mais simples, podemos usar áreas obviamente inabitáveis, como corpos d'água, para delinear onde a população não está e, consequentemente, atribuir toda a população às demais áreas. De maneira mais geral, cada unidade do Censo é esculpida em partes com áreas de superfície , . Nosso conjunto de dados é aumentado para uma lista de tuplasjkxjii=1,2,,k

(yj,xj1,xj2,,xjk)

onde é a população (assumida medida sem erro) na unidade j e - embora este não seja estritamente o caso - podemos assumir que cada x_ {ji} também é exatamente medido. Nesses termos, o objetivo é particionar cada y_ {j} em uma somayjjxjEuyj

yj=zj1+zj2++zjk

onde cada e estima a população dentro da unidade reside na classe de cobertura do solo . As estimativas precisam ser imparciais. Essa partição refina o mapa de densidade populacional atribuindo a densidade à interseção do polígono do censo e a classe de cobertura da terra . z j i j i z j i / x j i j th i thzjEu0 0zjEujEuzjEu/xjEujºEuº

Esse problema difere das configurações de regressão padrão de maneiras destacadas:

  1. O particionamento de cada deve ser exato. yj
  2. Os componentes de cada partição devem ser não negativos.
  3. Não existe (por suposição) nenhum erro em nenhum dado: toda a população conta e todas as áreas estão corretas. x j iyjxjEu

Existem muitas abordagens para uma solução, como o método de " mapeamento dasimétrico inteligente ", mas todas as que eu já li têm elementos ad hoc e um potencial óbvio de viés. Estou procurando respostas que sugeram métodos estatísticos criativos e tratáveis ​​por computador. A aplicação imediata refere-se a uma coleção de c. - Unidades censitárias com uma média de 40 pessoas cada (embora uma fração considerável tenha 0 pessoas) e cerca de uma dúzia de classes de cobertura da terra. 10 6105106

whuber
fonte
Problema de formatação agora corrigido. Foi um besouro.
precisa
@ Rob Obrigado, e obrigado a todas as pessoas que olharam para isso: vi seus comentários antes de serem excluídos e sou grato por seus esforços.
whuber
1
Também este: P. A Zandbergen e D. A Ignizio, “Comparação de Técnicas de Mapeamento Dasimétrico para Estimativas de População em Pequenas Áreas”, Cartografia e Ciência da Informação Geográfica 37, no. 3 (2010): 199-214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… O que parece ser uma mistura.
precisa saber é
1
Este artigo pode ser útil: Hwahwan Kim e Xiaobai Yao, “Interpolação picnofilática revisitada: integração com o método de mapeamento dasimétrico”, International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805
fgregg
1
O mapeamento dasimétrico, em última análise, é um problema de inferência ecológica. O trabalho recente de K. Imai pode ser útil: pan.oxfordjournals.org/content/16/1/41.abstract
fgregg

Respostas:

4

Você pode verificar o trabalho de Mitchel Langford no mapeamento dasimétrico.

Ele constrói criadores que representam a distribuição populacional do País de Gales e algumas de suas abordagens metodológicas podem ser úteis aqui.

Atualização: Você também pode dar uma olhada no trabalho de Jeremy Mennis (especialmente esses dois artigos).

radek
fonte
2
Obrigado. Esse trabalho fornece um ponteiro para uma rede de pesquisas recentes sobre mapeamento dasimétrico.
whuber
2

Pergunta interessante. Aqui está uma tentativa de abordar isso de um ângulo estatístico. Suponha que tenhamos uma maneira de atribuir uma contagem de população a cada área . Indique esse relacionamento como abaixo:xji

zji=f(xji,β)

Claramente, qualquer forma funcional que impormos a Será, na melhor das hipóteses, uma aproximação ao relacionamento real e, portanto, a necessidade de incorporar o erro na equação acima. Assim, o acima se torna:f(.)

zji=f(xji,β)+ϵji

Onde,

ϵjiN(0,σ2)

A suposição de erro distributivo no termo de erro é para fins ilustrativos. Se necessário, podemos alterá-lo conforme apropriado.

No entanto, precisamos de uma decomposição exata de . Portanto, precisamos impor uma restrição aos termos do erro e à função Como abaixo: f ( . )yjif(.)

iϵji=0

if(xji,β)=yj

Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: z j f ( x j i , β ) f jzjizjf(xji,β)fj

zjN(fj,σ2I)I(fje=yj)I((zjfj)e=0)

Onde,

e é um vetor daqueles de dimensão apropriada.

A primeira restrição de indicador captura a ideia de que a soma dos termos determinísticos deve somar e o segundo captura a idéia de que os resíduos de erro devem somar 0.yj

A seleção de modelos é mais complicada, pois estamos decompondo exatamente o observado . Talvez, uma maneira de abordar a seleção de modelos seja escolher o modelo que produz a menor variação de erro, ou seja, aquele que produz a menor estimativa de .σ 2yjσ2

Editar 1

Pensando um pouco mais, a formulação acima pode ser simplificada, pois possui mais restrições do que o necessário.

zji=f(xji,β)+ϵji

Onde,

ϵjiN(0,σ2)

Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: z j f ( x j i , β ) f jzjizjf(xji,β)fj

zjN(fj,σ2I)I(zje=yj)

Onde,

e é um vetor daqueles de dimensão apropriada.

A restrição em garante uma decomposição exata.zj


fonte
2
@ Krikant Obrigado. Eu estava pensando em linhas semelhantes quando fiz a pergunta e, desde então, testei uma GLM (distribuição de Poisson com link linear ), bem como alguns outros modelos. Infelizmente, agora parece que qualquer modelo baseado apenas no tipo e proporção de cobertura do solo não funcionará bem: uma amostra desses dados sugere que os padrões populacionais dependem de um contexto espacial maior. Então, no mínimo, precisaríamos incluir covariáveis ​​espacialmente defasadas em um modelo linear.
whuber