Histórico: minha organização atualmente compara suas estatísticas de diversidade da força de trabalho (por exemplo,% de pessoas com deficiência,% de mulheres,% de veteranas) com a disponibilidade total de força de trabalho para esses grupos com base no American Community Survey (um projeto de pesquisa do US Census Bureau). Essa é uma referência imprecisa, porque temos um conjunto muito específico de tarefas com demografia diferente da força de trabalho como um todo. Digamos, por exemplo, que minha organização seja formada principalmente por engenheiros. Engenharia é apenas cerca de 20% de mulheres no meu estado. Se nos compararmos à referência total da força de trabalho, que é mais parecida com 50% de mulheres, resulta em pânico que "só temos 20% de mulheres, isso é um desastre!" quando realmente 20% é o que deveríamos esperar, porque é assim que o cenário de trabalho se parece.
Meu objetivo: o que eu gostaria de fazer é pegar os dados de ocupação da American Community Survey (por categoria de diversidade) e ponderá-los novamente com base na composição dos empregos na minha empresa. Aqui está um conjunto de dados de amostra para trabalhadores de Serviço Social e Comunitário . Quero adicionar esses códigos de trabalho listados juntos (porque nossa faixa de pedestres é para grupos de trabalho, não para códigos de trabalho específicos), então quero ponderar essa referência com base no número de pessoas que temos nessa categoria (por exemplo, nossos 3.000 Social e Trabalhadores do Serviço Comunitário), então eu quero fazer o mesmo com todos os outros grupos de trabalho, somar esses números e dividir pelo número total de trabalhadores. Isso me daria uma nova medida de diversidade ponderada novamente (por exemplo, de 6% de pessoas com deficiência para 2% de pessoas com deficiência).
Minhas perguntas: Como encaixo margens de erro nesse benchmark final acumulado? Não tenho o conjunto de dados brutos do censo (obviamente), mas é possível visualizar as margens de erro de cada número no link que forneci alternando o campo "Estimativa" para "Margem de erro" na parte superior da tabela. Meus outros colegas de trabalho que estão trabalhando com esses dados pretendem ignorar totalmente as margens de erro, mas estou preocupado que estamos criando uma referência estatisticamente sem sentido para nós mesmos. Esses dados ainda são utilizáveis após a manipulação descrita acima?
Respostas:
Atualização 2014-01-15
Percebo que não respondi à pergunta original da Danica sobre se a margem de erro da proporção indiretamente ajustada desativada seria maior ou menor que a margem de erro da mesma taxa no ACS. A resposta é: se as proporções de categoria da empresa não diferirem drasticamente das proporções do ACS do estado, a margem de erro fornecida abaixo será menor que a margem de erro do ACS. O motivo: a taxa indireta trata a pessoa da categoria de trabalho da organização que conta (ou proporções relativas) como números fixos . A estimativa do ACS da proporção desativada requer, com efeito, uma estimativa dessas proporções e as margens de erro aumentarão para refletir isso.
Para ilustrar, escreva a taxa desativada como:
onde p i é a taxa de pessoas com deficiência estimada na categoria i na ACS.p^Eu Eu
Por outro lado, a taxa estimada da ACS é, de fato:
onde e N são respectivamente a categoria populacional e os totais totais e N i / N é a proporção populacional na categoria i .NEu N NEu/ N Eu
Atualização 2014-01-14
Resposta curta
Na minha opinião, seria irresponsável apresentar essa estatística sem um IC ou margem de erro (metade do comprimento do IC). Para calcular, você precisará fazer o download e analisar a Amostra de Microdados de Uso Público (PUMS) da ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Resposta longa
Isso não é realmente uma re-ponderação do ACS. É uma versão da padronização indireta, um procedimento padrão em epidemiologia (google ou veja qualquer texto epi). Nesse caso, as taxas de incapacidade do trabalho (categoria) do ACS do estado são ponderadas pela contagem de funcionários da categoria de trabalho da organização. Isso calculará um número esperado de pessoas com deficiência na organização
E
, que pode ser comparado ao número observadoO
. A métrica usual para a comparação é uma proporção padronizadaR= (O/E)
. (O termo usual é "SMR", para "taxa de mortalidade padronizada", mas aqui o "resultado" é incapacidade).R
é também a razão entre a taxa de incapacidade observada(O/n)
e a taxa indiretamente padronizada(E/n)
, onden
é o número de funcionários da organização.Nesse caso, parece que apenas um IC para
E
ouE/n
será necessário, então começarei com isso:E se
Então
A variação de
E
é:onde
nn
é o vetor da coluna da categoria da organização eV
é a matriz de variância-covariância estimada das taxas de incapacidade da categoria do ACS.Além disso, trivialmente,
se(E) = sqrt(var(E))
ese(E/n) = se(E)/n
.e um IC de 90% para E é
Divida por
n
para obter o IC paraE/n
.Para estimar,
var(E)
seria necessário fazer o download e analisar os dados da Amostra de Microdados de Uso Público (PUMS) da ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Só posso falar do processo de computação
var(E)
no Stata. Como não sei se isso está disponível para você, adiarei os detalhes. No entanto, alguém com conhecimento sobre os recursos de pesquisa do R ou (possivelmente) SAS também pode fornecer código a partir das equações acima.Intervalo de confiança para a razão
R
Intervalos de confiança para
R
são normalmente baseados em uma suposição de Poisson paraO
, mas essa suposição pode estar incorreta.Podemos considerar
O
eE
ser independentes, entãovar(log(E))
pode ser calculado como mais uma etapa Stata após o cálculo devar(E)
.Sob a suposição de independência de Poisson:
Um programa como o Stata poderia se encaixar, digamos, em um modelo binomial negativo ou modelo linear generalizado e fornecer um termo de variação mais preciso.
Um IC aproximado de 90% para
log R
ée os pontos de extremidade podem ser exponenciados para obter o IC
R
.fonte
FWIW, existem bons recursos para o ACS e o acesso a PUMS aqui ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Também há um pacote para manipular dados do ACS no CRAN - chamado, naturalmente, ACS - que eu achei realmente útil para fazer coisas atípicas com os dados do ACS. Este é um bom passo a passo para o pacote (infelizmente a documentação não é super intuitiva) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
fonte
adicionando ao link http://asdfree.com na resposta da @ pricele2 .. para resolver esse problema com o software livre, recomendamos que você siga estas etapas:
(1) ( duas horas de trabalho duro ) familiarize-se com o idioma r. assista aos primeiros 50 vídeos, dois minutos cada
http://twotorials.com/
(2) ( uma hora de instruções fáceis ) instale o monetdb no seu computador
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( trinta minutos de instruções após o download + download noturno ) faça o download dos acs no seu computador. obtenha apenas os anos que você precisa.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( quatro horas de aprendizado, programação e verificação do seu trabalho ) recodifique as variáveis que você precisa, de acordo com as especificações necessárias
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( duas horas de análise real ) execute o comando exato que você está procurando, capture o erro padrão e calcule um intervalo de confiança.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( quatro horas de programação ) se você precisar de um estimador de proporção, siga o exemplo de estimativa de proporção (com erro padrão ajustado corretamente pela pesquisa) aqui:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
fonte