Como posso simular microdados do censo para pequenas áreas usando uma amostra de microdados a 1% em grande escala e agregar estatísticas na pequena área?

9

Eu gostaria de realizar uma análise multivariada em nível individual em pequenos níveis de agregação geográfica (distritos de coleta de censo da Austrália). Claramente, o censo não está disponível nesses pequenos níveis de agregação por razões de privacidade, por isso estou investigando outras alternativas. Quase todas as variáveis ​​de interesse são categóricas. Tenho dois conjuntos de dados à minha disposição:

  • A amostra do censo de 1% está disponível em um nível muito maior de agregação espacial (uma área com uma população de ~ 190.000 e vasta segregação espacial de dados demográficos).

  • Tabelas de frequência para as variáveis ​​em que estou interessado no nível da área pequena (500 áreas pequenas, pop média = 385, dp = 319, mediana = 355).

Como posso usar esses dois conjuntos de dados para simular uma distribuição populacional no nível da área pequena o mais próximo possível da população real da área pequena?

Compreendo que pode haver métodos de rotina para fazer isso; nesse caso, um ponteiro para um livro ou artigos relevantes de periódicos seria muito apreciado.

fmark
fonte
possivelmente relacionado (estou tendo um problema semelhante): stats.stackexchange.com/questions/14399/… A amostragem de Gibbs pode ser o que é necessário aqui.
Mzuba #
Você pode fazer sua pergunta na lista de correspondência SRMSNET da American Statistical Association. Se você estiver na Austrália, eu abordaria Ray Chambers - acho que ninguém conhece a SAE melhor que ele no hemisfério sul :).
StasK
Esse problema está intimamente relacionado ao "mapeamento dasimétrico".
whuber
11
Concordo com o @whuber, e o mapeamento dasimétrico também pode ser interessante para marcar, dado o material em questão. Infelizmente, é amplamente separado da literatura de inferência ecológica que citei na minha resposta (não quero acumular mais literatura!) O que você acha marcante?
Andy W
11
Algumas técnicas de mapeamento dasimétrico começaram a usar dados auxiliares para tentar interpolar dados para áreas menores. Os objetivos da inferência ecológica e do mapeamento dasimétrico são um pouco diferentes (algo análogo à diferença entre previsão / previsão e inferência). Escreverei outro post sobre as fontes que coletei que acho que também seriam interessantes. Infelizmente, não posso dar conselhos muito mais úteis do que citar um monte de literatura. É um tópico contemporâneo popular, e espero que você possa contribuir com isso!
Andy W

Respostas:

5

O mapeamento dasimétrico concentra-se principalmente na interpolação de estimativas populacionais para áreas menores do que as disponíveis nos dados atualmente divulgados (consulte esta pergunta para uma série de referências úteis sobre o tópico). Freqüentemente, isso era feito simplesmente identificando áreas (com base nas características da terra) nas quais obviamente não existe população e, em seguida, re-estimando as densidades populacionais (omitindo essas áreas). Um exemplo pode ser se houver um corpo de água em uma cidade, outro pode ser se você identificar lotes de terrenos industriais que não podem ter população residencial. Abordagens mais recentes ao mapeamento dasimétrico incorporam outros dados auxiliares em uma estrutura probabilística para alocar estimativas populacionais (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Agora é fácil ver a relação com sua pergunta em mãos. Você quer as estimativas populacionais das pequenas áreas. Mas também deve ficar claro como isso pode ficar aquém dos seus objetivos. Você não quer apenas os dados da população, mas também as características dessas populações. Um dos termos usados ​​para descrever essa situação é a mudança do problema de suporte (Cressie, 1996; Gotway & Young, 2002). Tomando emprestado da literatura geoestatística em que se tenta fazer previsões de uma determinada característica em uma ampla área a partir de amostras pontuais, trabalhos recentes tentaram interpolar dados de áreas para diferentes zonas-alvo. Grande parte do trabalho de Pierre Goovaerts concentra-se em tais métodos de krigagem de área a ponto, um artigo recente na revista Geographic Analysis possui vários exemplos do método aplicado a diferentes materiais (Haining et al., 2010), e uma das minhas aplicações favoritas é neste artigo (Young et al., 2009).

O que cito dificilmente deve ser visto como uma panacéia para o problema. Por fim, muitos dos mesmos problemas com inferência ecológica e viés de agregação também se aplicam aos objetivos da interpolação regional. É provável que muitas das relações entre os dados de nível micro sejam simplesmente perdidas no processo de agregação e essas técnicas de interpolação não serão capazes de recuperá-las. Além disso, o processo pelo qual os dados são interpolados empiricamente (através da estimativa de variogramas a partir dos dados agregados no nível) geralmente é bastante cheio de etapas ad-hoc que devem tornar o processo questionável (Goovaerts, 2008).

Infelizmente, eu postei isso em uma resposta separada, pois a literatura de inferência ecológica e a literatura sobre mapeamento dasimétrico e krigagem área a ponto não são sobrepostas. Embora a literatura sobre inferência ecológica tenha muitas implicações para essas técnicas. Não são apenas as técnicas de interpolação sujeitas a viés de agregação, mas as técnicas dasimétricas inteligentes (que usam os dados agregados para ajustar modelos para prever áreas menores) são provavelmente suspeitas de viés de agregação. O conhecimento das situações em que ocorre o viés de agregação deve ser esclarecedor sobre as situações nas quais a interpolação de áreas e o mapeamento dasimétrico falharão amplamente (especialmente no que diz respeito à identificação de correlações entre diferentes variáveis ​​no nível desagregado).


Citações

Andy W
fonte
Obrigado pelo útil ponto de partida da literatura contemporânea - eu não estava ciente dos métodos dasimétricos que faziam mais do que reponderar a densidade populacional, por isso analisarei isso ansiosamente.
fmark
5

O trabalho de Gary King, em particular o livro "Uma Solução para o Problema da Inferência Ecológica" (os dois primeiros capítulos estão disponíveis aqui ), seria interessante (assim como o software que ele usa para a inferência ecológica). King mostra em seu livro como as estimativas de modelos de regressão usando dados agregados podem ser melhoradas examinando os limites potenciais de agrupamentos de nível inferior com base nos dados agregados disponíveis. O fato de seus dados serem principalmente agrupamentos categóricos os torna passíveis de utilização para essa técnica. (Embora não se deixe enganar, não é uma solução omnibus que você poderia esperar, com o título!) Existe um trabalho mais atual, mas o livro de King é o melhor lugar para começar.

Outra possibilidade seria apenas representar os limites potenciais dos próprios dados (em mapas ou gráficos). Assim, por exemplo, você pode ter a distribuição de sexo relatada no nível agregado (por exemplo, 5.000 homens e 5.000 mulheres), e você sabe que esse nível agregado abrange 2 diferentes unidades de área pequena da população 9.000 e 1.000 indivíduos. Você pode representar isso como uma tabela de contingência do formulário;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Embora você não tenha as informações nas células para agregações de nível inferior, a partir dos totais marginais, podemos construir valores potenciais mínimos ou máximos para cada célula. Então, neste exemplo, oMen X Unit1 célula só pode assumir valores entre 4.000 e 5.000 (sempre que as distribuições marginais forem mais desiguais, menor o intervalo de valores possíveis que as células terão). Aparentemente, obter os limites da tabela é mais difícil do que eu esperava ( Dobra & Fienberg, 2000 ), mas parece que uma função está disponível na eiPackbiblioteca em R ( Lau et al., 2007, p. 43 ).

A análise multivariada com dados em nível agregado é difícil, pois o viés de agregação ocorre inevitavelmente com esse tipo de dados. (Em poucas palavras, eu descreveria apenas o viés de agregação, pois muitos processos diferentes de geração de dados em nível individual podem resultar em associações em nível agregado). Uma série de artigos na American Sociological Reviewna década de 1970, são algumas das minhas referências favoritas para os tópicos (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), embora fontes canônicas sobre o tópico possam ser (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Eu acho que representar os limites potenciais que os dados podem assumir poderia ser incitante, embora você esteja realmente prejudicado pelas limitações dos dados agregados para realizar análises multivariadas. Mas isso não impede ninguém de fazer isso nas ciências sociais (para melhor ou para pior!)

Observe (como Charlie disse nos comentários) que a "solução" de King recebeu uma quantidade considerável de críticas (Anselin & Cho, 2002; Freedman et al., 1998). Embora essas críticas não sejam de opinião sobre a matemática do método de King, mais ainda sobre quais situações nas quais o método de King ainda não responde pelo viés de agregação (e eu concordo com Freedman e Anselin nas situações em que os dados para as ciências sociais ainda são suspeitas são muito mais comuns do que aquelas que atendem às suposições de King). Esta é em parte a razão pela qual sugiro apenas examinar os limites (não há nada de errado nisso), mas fazer inferências sobre correlações em nível individual a partir desses dados exige muito mais saltos de fé que são injustificáveis ​​na maioria das situações.


Citações

Andy W
fonte
Observe que outros criticaram a abordagem de King à questão da falácia ecológica; David Freedman é um exemplo notável. Aqui está a resposta que Freedman e seus co-autores dão ao livro de King citado acima: citeseerx.ist.psu.edu/viewdoc/… Obviamente, King tem uma resposta e Freedman et al. tenha uma resposta à resposta à resposta ... Não consigo entender direito o que você está tentando fazer e quais dados possui, mas geralmente sou muito cético em relação às análises ecológicas do tipo de inferência.
Charlie
Sim, @Charlie Eu concordo (e particularmente aprecio a opinião de Freedman sobre o assunto em geral). Essa é em parte a razão pela qual aponto para a literatura geral sobre viés de agregação no final do meu post. Não sei bem o que você quer dizer com a afirmação "Não consigo entender o que você está tentando fazer e quais dados possui, mas geralmente sou muito cético em relação às análises ecológicas do tipo de inferência", é isso em Com relação ao rei e Freedman, ambos reclamando por não compartilhar dados?
Andy W
@ Andy, essa técnica é a mesma que os economistas conhecem como distribuições parcialmente identificadas ( springer.com/statistics/statistical+theory+and+methods/book/… )?
StasK
@ Andy, não, desculpe pela ambiguidade. Na verdade, eu estava falando com o OP. Se ele possui tabelas de frequência na área pequena e deseja obter estatísticas no nível da área pequena, o que está faltando? Eu acho que ele deve ter apenas as margens, mas não o conteúdo da célula, como você sugere em seu post.
Charlie
@StasK, eu não sei. Vou verificar se King faz alguma referência a Manski ainda esta semana, quando tiver acesso ao livro. É provável que haja alguma sobreposição, pois a inferência ecológica é mencionada no resumo. Outro potencial (livre) fonte para explorar a associação entre os dois pode ser o leitor Rei editado em "novos métodos de Ecológica Inference" ( publicado em sua totalidade em seu site)
Andy W
2

Não tenho certeza de que exista uma resposta bem definida na literatura para isso, uma vez que a pesquisa no Google fornece basicamente três referências úteis na estimativa multivariada de pequenas áreas. Pfeffermann (2002) discute variáveis ​​de resposta discretas na seção 4 do artigo, mas esses serão modelos univariados. Obviamente, com métodos bayesianos hierárquicos ( Rao 2003, cap. 10 ), você pode fazer qualquer tipo de maravilha, mas se, no final, você se encontrar apenas replicando seus anteriores (porque você tem poucos dados), isso seria terrível. resultado do seu exercício de simulação. Além disso, Rao trata apenas variáveis ​​contínuas.

Eu acho que o maior desafio será a decomposição da matriz de covariância nos componentes entre e dentro da área pequena. Com uma amostra de 1%, você terá apenas três observações do seu SAE; portanto, pode ser difícil obter uma estimativa estável do componente interno.

Se eu estivesse no seu lugar, tentaria uma extensão multivariada do modelo de Pfeffermann com um efeito aleatório multivariado da pequena área. Você pode realmente acabar com um modelo bayesiano hierárquico para isso, se nada funcionar com base no design.

UPDATE (para abordar o comentário de Andy sobre esta resposta): os métodos de inicialização para estimativa de pequenas áreas ( Lahiri 2003 ) recriam especificamente uma população plausível do estudo. Embora o foco do exercício de autoinicialização seja estimar as variações das estimativas de área pequena, os procedimentos devem ser de interesse e relevância para o problema publicado.

StasK
fonte
Eu não avaliaria o status de uma literatura com base em uma pesquisa no google. Não tenho certeza se a estimativa de área pequena é o que o autor procuraria nesse caso. Até onde eu entendo, essa literatura está focada em fazer previsões de características em pequenas áreas ( Kriegler & Berk, 2010 ) ou em estimar parâmetros em modelos de vários níveis com base em um número escasso de amostras por unidade agregada.
Andy W
Não tenho certeza de que estimativa de área pequena é o que quero fazer. Pelo que entendi, a estimativa de área pequena procura ir de algumas amostras em uma área pequena para agregar estatísticas resumidas. Estou procurando o oposto (para passar de uma distribuição populacional de área grande e estatística resumida de área pequena para uma população simulada de área pequena). Lahiri 2003 parece um bom ponto de partida aqui.
fmark