Eu gostaria de realizar uma análise multivariada em nível individual em pequenos níveis de agregação geográfica (distritos de coleta de censo da Austrália). Claramente, o censo não está disponível nesses pequenos níveis de agregação por razões de privacidade, por isso estou investigando outras alternativas. Quase todas as variáveis de interesse são categóricas. Tenho dois conjuntos de dados à minha disposição:
A amostra do censo de 1% está disponível em um nível muito maior de agregação espacial (uma área com uma população de ~ 190.000 e vasta segregação espacial de dados demográficos).
Tabelas de frequência para as variáveis em que estou interessado no nível da área pequena (500 áreas pequenas, pop média = 385, dp = 319, mediana = 355).
Como posso usar esses dois conjuntos de dados para simular uma distribuição populacional no nível da área pequena o mais próximo possível da população real da área pequena?
Compreendo que pode haver métodos de rotina para fazer isso; nesse caso, um ponteiro para um livro ou artigos relevantes de periódicos seria muito apreciado.
Respostas:
O mapeamento dasimétrico concentra-se principalmente na interpolação de estimativas populacionais para áreas menores do que as disponíveis nos dados atualmente divulgados (consulte esta pergunta para uma série de referências úteis sobre o tópico). Freqüentemente, isso era feito simplesmente identificando áreas (com base nas características da terra) nas quais obviamente não existe população e, em seguida, re-estimando as densidades populacionais (omitindo essas áreas). Um exemplo pode ser se houver um corpo de água em uma cidade, outro pode ser se você identificar lotes de terrenos industriais que não podem ter população residencial. Abordagens mais recentes ao mapeamento dasimétrico incorporam outros dados auxiliares em uma estrutura probabilística para alocar estimativas populacionais (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).
Agora é fácil ver a relação com sua pergunta em mãos. Você quer as estimativas populacionais das pequenas áreas. Mas também deve ficar claro como isso pode ficar aquém dos seus objetivos. Você não quer apenas os dados da população, mas também as características dessas populações. Um dos termos usados para descrever essa situação é a mudança do problema de suporte (Cressie, 1996; Gotway & Young, 2002). Tomando emprestado da literatura geoestatística em que se tenta fazer previsões de uma determinada característica em uma ampla área a partir de amostras pontuais, trabalhos recentes tentaram interpolar dados de áreas para diferentes zonas-alvo. Grande parte do trabalho de Pierre Goovaerts concentra-se em tais métodos de krigagem de área a ponto, um artigo recente na revista Geographic Analysis possui vários exemplos do método aplicado a diferentes materiais (Haining et al., 2010), e uma das minhas aplicações favoritas é neste artigo (Young et al., 2009).
O que cito dificilmente deve ser visto como uma panacéia para o problema. Por fim, muitos dos mesmos problemas com inferência ecológica e viés de agregação também se aplicam aos objetivos da interpolação regional. É provável que muitas das relações entre os dados de nível micro sejam simplesmente perdidas no processo de agregação e essas técnicas de interpolação não serão capazes de recuperá-las. Além disso, o processo pelo qual os dados são interpolados empiricamente (através da estimativa de variogramas a partir dos dados agregados no nível) geralmente é bastante cheio de etapas ad-hoc que devem tornar o processo questionável (Goovaerts, 2008).
Infelizmente, eu postei isso em uma resposta separada, pois a literatura de inferência ecológica e a literatura sobre mapeamento dasimétrico e krigagem área a ponto não são sobrepostas. Embora a literatura sobre inferência ecológica tenha muitas implicações para essas técnicas. Não são apenas as técnicas de interpolação sujeitas a viés de agregação, mas as técnicas dasimétricas inteligentes (que usam os dados agregados para ajustar modelos para prever áreas menores) são provavelmente suspeitas de viés de agregação. O conhecimento das situações em que ocorre o viés de agregação deve ser esclarecedor sobre as situações nas quais a interpolação de áreas e o mapeamento dasimétrico falharão amplamente (especialmente no que diz respeito à identificação de correlações entre diferentes variáveis no nível desagregado).
Citações
fonte
O trabalho de Gary King, em particular o livro "Uma Solução para o Problema da Inferência Ecológica" (os dois primeiros capítulos estão disponíveis aqui ), seria interessante (assim como o software que ele usa para a inferência ecológica). King mostra em seu livro como as estimativas de modelos de regressão usando dados agregados podem ser melhoradas examinando os limites potenciais de agrupamentos de nível inferior com base nos dados agregados disponíveis. O fato de seus dados serem principalmente agrupamentos categóricos os torna passíveis de utilização para essa técnica. (Embora não se deixe enganar, não é uma solução omnibus que você poderia esperar, com o título!) Existe um trabalho mais atual, mas o livro de King é o melhor lugar para começar.
Outra possibilidade seria apenas representar os limites potenciais dos próprios dados (em mapas ou gráficos). Assim, por exemplo, você pode ter a distribuição de sexo relatada no nível agregado (por exemplo, 5.000 homens e 5.000 mulheres), e você sabe que esse nível agregado abrange 2 diferentes unidades de área pequena da população 9.000 e 1.000 indivíduos. Você pode representar isso como uma tabela de contingência do formulário;
Embora você não tenha as informações nas células para agregações de nível inferior, a partir dos totais marginais, podemos construir valores potenciais mínimos ou máximos para cada célula. Então, neste exemplo, o
Men X Unit1
célula só pode assumir valores entre 4.000 e 5.000 (sempre que as distribuições marginais forem mais desiguais, menor o intervalo de valores possíveis que as células terão). Aparentemente, obter os limites da tabela é mais difícil do que eu esperava ( Dobra & Fienberg, 2000 ), mas parece que uma função está disponível naeiPack
biblioteca em R ( Lau et al., 2007, p. 43 ).A análise multivariada com dados em nível agregado é difícil, pois o viés de agregação ocorre inevitavelmente com esse tipo de dados. (Em poucas palavras, eu descreveria apenas o viés de agregação, pois muitos processos diferentes de geração de dados em nível individual podem resultar em associações em nível agregado). Uma série de artigos na American Sociological Reviewna década de 1970, são algumas das minhas referências favoritas para os tópicos (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), embora fontes canônicas sobre o tópico possam ser (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Eu acho que representar os limites potenciais que os dados podem assumir poderia ser incitante, embora você esteja realmente prejudicado pelas limitações dos dados agregados para realizar análises multivariadas. Mas isso não impede ninguém de fazer isso nas ciências sociais (para melhor ou para pior!)
Observe (como Charlie disse nos comentários) que a "solução" de King recebeu uma quantidade considerável de críticas (Anselin & Cho, 2002; Freedman et al., 1998). Embora essas críticas não sejam de opinião sobre a matemática do método de King, mais ainda sobre quais situações nas quais o método de King ainda não responde pelo viés de agregação (e eu concordo com Freedman e Anselin nas situações em que os dados para as ciências sociais ainda são suspeitas são muito mais comuns do que aquelas que atendem às suposições de King). Esta é em parte a razão pela qual sugiro apenas examinar os limites (não há nada de errado nisso), mas fazer inferências sobre correlações em nível individual a partir desses dados exige muito mais saltos de fé que são injustificáveis na maioria das situações.
Citações
fonte
Não tenho certeza de que exista uma resposta bem definida na literatura para isso, uma vez que a pesquisa no Google fornece basicamente três referências úteis na estimativa multivariada de pequenas áreas. Pfeffermann (2002) discute variáveis de resposta discretas na seção 4 do artigo, mas esses serão modelos univariados. Obviamente, com métodos bayesianos hierárquicos ( Rao 2003, cap. 10 ), você pode fazer qualquer tipo de maravilha, mas se, no final, você se encontrar apenas replicando seus anteriores (porque você tem poucos dados), isso seria terrível. resultado do seu exercício de simulação. Além disso, Rao trata apenas variáveis contínuas.
Eu acho que o maior desafio será a decomposição da matriz de covariância nos componentes entre e dentro da área pequena. Com uma amostra de 1%, você terá apenas três observações do seu SAE; portanto, pode ser difícil obter uma estimativa estável do componente interno.
Se eu estivesse no seu lugar, tentaria uma extensão multivariada do modelo de Pfeffermann com um efeito aleatório multivariado da pequena área. Você pode realmente acabar com um modelo bayesiano hierárquico para isso, se nada funcionar com base no design.
UPDATE (para abordar o comentário de Andy sobre esta resposta): os métodos de inicialização para estimativa de pequenas áreas ( Lahiri 2003 ) recriam especificamente uma população plausível do estudo. Embora o foco do exercício de autoinicialização seja estimar as variações das estimativas de área pequena, os procedimentos devem ser de interesse e relevância para o problema publicado.
fonte