Como a re-ponderação dos dados de diversidade da Pesquisa da Comunidade Americana afetaria suas margens de erro?

Histórico: minha organização atualmente compara suas estatísticas de diversidade da força de trabalho (por exemplo,% de pessoas com deficiência,% de mulheres,% de veteranas) com a disponibilidade total de força de trabalho para esses grupos com base no American Community Survey (um projeto de pesquisa do US Census Bureau). Essa é uma referência imprecisa, porque temos um conjunto muito específico de tarefas com demografia diferente da força de trabalho como um todo. Digamos, por exemplo, que minha organização seja formada principalmente por engenheiros. Engenharia é apenas cerca de 20% de mulheres no meu estado. Se nos compararmos à referência total da força de trabalho, que é mais parecida com 50% de mulheres, resulta em pânico que "só temos 20% de mulheres, isso é um desastre!" quando realmente 20% é o que deveríamos esperar, porque é assim que o cenário de trabalho se parece.

Meu objetivo: o que eu gostaria de fazer é pegar os dados de ocupação da American Community Survey (por categoria de diversidade) e ponderá-los novamente com base na composição dos empregos na minha empresa. Aqui está um conjunto de dados de amostra para trabalhadores de Serviço Social e Comunitário . Quero adicionar esses códigos de trabalho listados juntos (porque nossa faixa de pedestres é para grupos de trabalho, não para códigos de trabalho específicos), então quero ponderar essa referência com base no número de pessoas que temos nessa categoria (por exemplo, nossos 3.000 Social e Trabalhadores do Serviço Comunitário), então eu quero fazer o mesmo com todos os outros grupos de trabalho, somar esses números e dividir pelo número total de trabalhadores. Isso me daria uma nova medida de diversidade ponderada novamente (por exemplo, de 6% de pessoas com deficiência para 2% de pessoas com deficiência).

Minhas perguntas: Como encaixo margens de erro nesse benchmark final acumulado? Não tenho o conjunto de dados brutos do censo (obviamente), mas é possível visualizar as margens de erro de cada número no link que forneci alternando o campo "Estimativa" para "Margem de erro" na parte superior da tabela. Meus outros colegas de trabalho que estão trabalhando com esses dados pretendem ignorar totalmente as margens de erro, mas estou preocupado que estamos criando uma referência estatisticamente sem sentido para nós mesmos. Esses dados ainda são utilizáveis após a manipulação descrita acima?

confidence-interval sampling data-transformation diversity DanicaE
fonte

Não pese novamente o ACS - é um produto delicado, altamente sofisticado e, com todo o respeito, não acho que você seja um estatístico tão bom quanto o Censo. Se você puder obter definições de trabalho consistentes com sua tarefa no ACS ou CPS para comparações em todo o país, a comparação de maçãs para maçãs seria calcular o número esperado de categorias de "diversidade" com base no ACS para que sua empresa aja como diversidade razoável metas.

StasK

Stas, eu concordo com você, mas como indico abaixo, isso não é realmente uma reponderação do ACS.

9788 Steve Jobs -

Nas estatísticas da pesquisa, "reponderação" significaria a transformação dos pesos originais da pesquisa. Um exemplo disso seria pós-estratificação, coleta de amostras ou calibração, de modo que certas distribuições marginais para a amostra ponderada correspondam às distribuições conhecidas externamente, digamos do censo ou do ACS. O procedimento que Danica menciona não toca nos pesos do ACS.

18720 Steve Jobs

O que pode ajudar é anotar a quantidade finita de população que você deseja saber. O ACS também tem pesos replicados? Isso pode ajudar na estimativa de variância.

probabilityislogic

Respostas:

Atualização 2014-01-15

Percebo que não respondi à pergunta original da Danica sobre se a margem de erro da proporção indiretamente ajustada desativada seria maior ou menor que a margem de erro da mesma taxa no ACS. A resposta é: se as proporções de categoria da empresa não diferirem drasticamente das proporções do ACS do estado, a margem de erro fornecida abaixo será menor que a margem de erro do ACS. O motivo: a taxa indireta trata a pessoa da categoria de trabalho da organização que conta (ou proporções relativas) como números fixos . A estimativa do ACS da proporção desativada requer, com efeito, uma estimativa dessas proporções e as margens de erro aumentarão para refletir isso.

Para ilustrar, escreva a taxa desativada como:

{\hat{P}}_{uma d j} = \sum \frac{n_{Eu}}{n} \hat{p_{Eu}}

$\hat{P}_{adj} = \sum \dfrac{n_i}{n} \hat{p_i} \\$

onde é a taxa de pessoas com deficiência estimada na categoria na ACS. $\hat{p}_i$ $i$

Por outro lado, a taxa estimada da ACS é, de fato:

{\hat{P}}_{uma c s} = \sum \hat{(\frac{N_{Eu}}{N})} \hat{p_{Eu}}

$\hat{P}_{acs} = \sum\widehat{\left(\frac{N_i}{N}\right)} \hat{p_i}$

onde e são respectivamente a categoria populacional e os totais totais e é a proporção populacional na categoria . $N_i$ $N$ $N_i/N$ $i$

$N_i/N$ $p_i$

$SE( \hat{P}_{adj} )>SE( \hat{P}_{acs} )$ $N_1/N= 0.7345$ $N_2/N= 0.2655$ $SE( \hat{P}_{acs} ) = 0.0677$

$n_1/n$ $n_2/n$ $SE(\hat{P}_{adj} )=0.0375$ $n_1/n= 0.15$ $n_2/n =0.85$ $SE( \hat{P}_{adj} )=0.0678$ $SE( \hat{P}_{acs} )$ $n_1/n= 0.001$ $n_2/n =0.999$ $SE( \hat{P}_{adj} )=0.079$

Atualização 2014-01-14

Resposta curta

Na minha opinião, seria irresponsável apresentar essa estatística sem um IC ou margem de erro (metade do comprimento do IC). Para calcular, você precisará fazer o download e analisar a Amostra de Microdados de Uso Público (PUMS) da ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Resposta longa

Isso não é realmente uma re-ponderação do ACS. É uma versão da padronização indireta, um procedimento padrão em epidemiologia (google ou veja qualquer texto epi). Nesse caso, as taxas de incapacidade do trabalho (categoria) do ACS do estado são ponderadas pela contagem de funcionários da categoria de trabalho da organização. Isso calculará um número esperado de pessoas com deficiência na organização E, que pode ser comparado ao número observado O. A métrica usual para a comparação é uma proporção padronizada R= (O/E). (O termo usual é "SMR", para "taxa de mortalidade padronizada", mas aqui o "resultado" é incapacidade). Ré também a razão entre a taxa de incapacidade observada (O/n)e a taxa indiretamente padronizada (E/n), onde né o número de funcionários da organização.

Nesse caso, parece que apenas um IC para Eou E/nserá necessário, então começarei com isso:

E se

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Então

 E = sum (n_i p_i)

A variação de Eé:

 var(E) = nn' V nn

onde nné o vetor da coluna da categoria da organização e Vé a matriz de variância-covariância estimada das taxas de incapacidade da categoria do ACS.

Além disso, trivialmente, se(E) = sqrt(var(E))e se(E/n) = se(E)/n.

e um IC de 90% para E é

  E ± 1.645 SE(E)

Divida por npara obter o IC para E/n.

Para estimar, var(E)seria necessário fazer o download e analisar os dados da Amostra de Microdados de Uso Público (PUMS) da ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Só posso falar do processo de computação var(E)no Stata. Como não sei se isso está disponível para você, adiarei os detalhes. No entanto, alguém com conhecimento sobre os recursos de pesquisa do R ou (possivelmente) SAS também pode fornecer código a partir das equações acima.

Intervalo de confiança para a razão R

Intervalos de confiança para Rsão normalmente baseados em uma suposição de Poisson para O, mas essa suposição pode estar incorreta.

Podemos considerar Oe Eser independentes, então

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))pode ser calculado como mais uma etapa Stata após o cálculo de var(E).

Sob a suposição de independência de Poisson:

 var(log O) ~ 1/E(O).

Um programa como o Stata poderia se encaixar, digamos, em um modelo binomial negativo ou modelo linear generalizado e fornecer um termo de variação mais preciso.

Um IC aproximado de 90% para log Ré

 log R ± 1.645 sqrt(var(log R))

e os pontos de extremidade podem ser exponenciados para obter o IC R.

Steve Samuels
fonte

\log (R)

$\log(R)$

R

$R$

Não me pareceu um caso em que a mancha era apropriada, mas eu poderia estar errado. O que você sugeriria?

9788 Steve Jobs

Alguns métodos mencionados no CV incluem aumentar rapidamente o IC, o método delta e criar um perfil da função de probabilidade.

whuber

Obrigado pela sua resposta. É possível extrair dados de PUMS com R? Eu não tenho SAS. Puxei dados de PUMS antes de usar a ferramenta DataFerret fornecida pelo censo, mas não tenho certeza de que isso me dê qualquer coisa que eu possa manipular utilmente no Excel, que é o que tenho. Posso instalar o R, obviamente, mas não tenho nenhuma experiência com ele.

precisa saber é o seguinte

De nada, Danica. Se esta resposta for útil, marque a caixa de seleção para aceitá-la oficialmente. Observe que eu atualizei a resposta. Eu recomendo que você apresente as margens de erro do ACS como substitutos conservadores dos adequados.

Steve Samuels

FWIW, existem bons recursos para o ACS e o acesso a PUMS aqui ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Também há um pacote para manipular dados do ACS no CRAN - chamado, naturalmente, ACS - que eu achei realmente útil para fazer coisas atípicas com os dados do ACS. Este é um bom passo a passo para o pacote (infelizmente a documentação não é super intuitiva) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

pricele2
fonte

adicionando ao link http://asdfree.com na resposta da @ pricele2 .. para resolver esse problema com o software livre, recomendamos que você siga estas etapas:

(1) ( duas horas de trabalho duro ) familiarize-se com o idioma r. assista aos primeiros 50 vídeos, dois minutos cada

http://twotorials.com/

(2) ( uma hora de instruções fáceis ) instale o monetdb no seu computador

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( trinta minutos de instruções após o download + download noturno ) faça o download dos acs no seu computador. obtenha apenas os anos que você precisa.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( quatro horas de aprendizado, programação e verificação do seu trabalho ) recodifique as variáveis que você precisa, de acordo com as especificações necessárias

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( duas horas de análise real ) execute o comando exato que você está procurando, capture o erro padrão e calcule um intervalo de confiança.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( quatro horas de programação ) se você precisar de um estimador de proporção, siga o exemplo de estimativa de proporção (com erro padrão ajustado corretamente pela pesquisa) aqui:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
fonte

Obrigado, esses são excelentes recursos. Se alguém vier aqui procurar essas informações, os tutoriais de R que eu tenho usado são datacamp.com e coursera.org/course/rprog . O Data Camp é um tutorial interativo fantástico. O curso Coursera é mais pesado em teoria / estrutura / nomes de coisas.

DanicaE