Um banco de dados de (população, área, forma) pode ser usado para mapear a densidade populacional atribuindo um valor constante de população / área a cada forma (que é um polígono, como um bloco de recenseamento, área, município, estado, qualquer que seja). No entanto, as populações geralmente não são distribuídas uniformemente dentro de seus polígonos. O mapeamento dasimétrico é o processo de refinar essas estimativas de densidade por meio de dados auxiliares. É um problema importante nas ciências sociais, como indica esta revisão recente .
Suponha, então, que tenhamos disponível um mapa auxiliar da cobertura do solo (ou qualquer outro fator discreto). No caso mais simples, podemos usar áreas obviamente inabitáveis, como corpos d'água, para delinear onde a população não está e, consequentemente, atribuir toda a população às demais áreas. De maneira mais geral, cada unidade do Censo é esculpida em partes com áreas de superfície , . Nosso conjunto de dados é aumentado para uma lista de tuplas
onde é a população (assumida medida sem erro) na unidade j e - embora este não seja estritamente o caso - podemos assumir que cada x_ {ji} também é exatamente medido. Nesses termos, o objetivo é particionar cada y_ {j} em uma soma
onde cada e estima a população dentro da unidade reside na classe de cobertura do solo . As estimativas precisam ser imparciais. Essa partição refina o mapa de densidade populacional atribuindo a densidade à interseção do polígono do censo e a classe de cobertura da terra . z j i j i z j i / x j i j th i th
Esse problema difere das configurações de regressão padrão de maneiras destacadas:
- O particionamento de cada deve ser exato.
- Os componentes de cada partição devem ser não negativos.
- Não existe (por suposição) nenhum erro em nenhum dado: toda a população conta e todas as áreas estão corretas. x j i
Existem muitas abordagens para uma solução, como o método de " mapeamento dasimétrico inteligente ", mas todas as que eu já li têm elementos ad hoc e um potencial óbvio de viés. Estou procurando respostas que sugeram métodos estatísticos criativos e tratáveis por computador. A aplicação imediata refere-se a uma coleção de c. - Unidades censitárias com uma média de 40 pessoas cada (embora uma fração considerável tenha 0 pessoas) e cerca de uma dúzia de classes de cobertura da terra. 10 6
fonte
Respostas:
Você pode verificar o trabalho de Mitchel Langford no mapeamento dasimétrico.
Ele constrói criadores que representam a distribuição populacional do País de Gales e algumas de suas abordagens metodológicas podem ser úteis aqui.
Atualização: Você também pode dar uma olhada no trabalho de Jeremy Mennis (especialmente esses dois artigos).
fonte
Pergunta interessante. Aqui está uma tentativa de abordar isso de um ângulo estatístico. Suponha que tenhamos uma maneira de atribuir uma contagem de população a cada área . Indique esse relacionamento como abaixo:xji
Claramente, qualquer forma funcional que impormos a Será, na melhor das hipóteses, uma aproximação ao relacionamento real e, portanto, a necessidade de incorporar o erro na equação acima. Assim, o acima se torna:f(.)
Onde,
A suposição de erro distributivo no termo de erro é para fins ilustrativos. Se necessário, podemos alterá-lo conforme apropriado.
No entanto, precisamos de uma decomposição exata de . Portanto, precisamos impor uma restrição aos termos do erro e à função Como abaixo: f ( . )yji f(.)
Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: z j f ( x j i , β ) f jzji zj f(xji,β) fj
Onde,
A primeira restrição de indicador captura a ideia de que a soma dos termos determinísticos deve somar e o segundo captura a idéia de que os resíduos de erro devem somar 0.yj
A seleção de modelos é mais complicada, pois estamos decompondo exatamente o observado . Talvez, uma maneira de abordar a seleção de modelos seja escolher o modelo que produz a menor variação de erro, ou seja, aquele que produz a menor estimativa de .σ 2yj σ2
Editar 1
Pensando um pouco mais, a formulação acima pode ser simplificada, pois possui mais restrições do que o necessário.
Onde,
Denote o vetor empilhado de por e os termos determinísticos empilhados de por . Assim, temos: z j f ( x j i , β ) f jzji zj f(xji,β) fj
Onde,
A restrição em garante uma decomposição exata.zj
fonte