Suponha que desejamos testar a hipótese de que a proporção de marcianos de olhos azuis vem diminuindo ao longo do século XX. Infelizmente, a população marciana flutua muito; portanto, a cada década, há uma grande diferença na população total [atualização: considere a população marciana constante em um bilhão de marcianos. Os dados abaixo são amostras aleatórias a cada ano]. O conjunto de dados (composto no momento em que escrevo isso) pode ser algo como isto:
Year | Total martian population | Blue-eyed martians | Proportion
1910 | 400 | 250 | 0.625
1920 | 2000 | 1000 | 0.500
1930 | 70 | 40 | 0.571
1940 | 30 | 14 | 0.467
1950 | 10 | 4 | 0.400
1960 | 140 | 52 | 0.371
1970 | 50 000 | 15 400 | 0.308
1980 | 70 000 | 22 000 | 0.314
1990 | 1500 | 80 | 0.053
2000 | 5000 | 800 | 0.160
Analisar os anos em que a população marciana tem menos de 100 anos não é claramente tão significativo estatisticamente como quando a população está acima de 10.000, pois neste último caso, temos um conjunto de dados maior. Ainda assim, gostaríamos de usar todos os dados disponíveis para verificar nossa hipótese com um nível de significância convencional de 95%.
Como procedemos? Ponderamos a importância de cada ano de acordo com o tamanho da amostra da época?
Mais edições para atender às preocupações: a preocupação aqui é como ponderamos adequadamente cada conjunto de dados, tendo em mente que eles têm tamanhos tão diferentes. Não há viés de amostra, pois os dados são selecionados aleatoriamente.
Respostas:
Esta resposta descreve três maneiras de lidar com os diferentes tamanhos de amostra adequadamente: um Modelo Linear Generalizado e duas regressões de Mínimos Quadrados Ordinários ponderados. Nesse caso, os três funcionam bem. Em geral, quando algumas proporções estão próximas de ou , o GLM é melhor.10 1
Como os tamanhos das amostras são muito pequenos em comparação com as populações (menos de dez por cento deles), para uma excelente aproximação, a distribuição dos resultados de olhos azuis e não de olhos azuis em uma amostra de tamanho é Binomial (porque as amostras são aleatória). O outro parâmetro binomial, , é a proporção verdadeira (mas desconhecida) de indivíduos de olhos azuis na população. Assim, a chance de observar pessoas de olhos azuis ép kn p k
Cada década sabemos e --those são dadas pelos dados - mas não sabemos . Podemos estimar isso assumindo que as chances do log correspondente a variem linearmente por ano (pelo menos para uma boa aproximação). Isso significa que assumimos que existem números e tais quen k p p β0 β1
Equivalentemente,
Ao conectar isso em (1), é possível observar de durante um determinado ano comok n t
Assumindo que as amostras são independentemente obtido no ano etc e a escrever os correspondentes tamanhos da amostra e as contagens de sujeitos de olhos azuis como e , a probabilidade dos dados é o produto das probabilidades dos resultados individuais. Este produto é (por definição) a probabilidade de . Podemos estimar esses parâmetros como os valores que maximizam a probabilidade; equivalentemente, eles maximizam a probabilidade do logt1,t2, ni ki (β0,β1) (β^0,β^1)
obtido de .(2)
(Isso simplifica consideravelmente o uso de regras de logaritmos, que é um dos motivos para expressar a relação de proporção do tempo em termos de probabilidades de log. Quando todas as proporções estão entre e , aproximadamente, há pouca diferença qualitativa entre o uso de probabilidades ou seu log. odds: a curva ajustada será linear ou próxima de linear, respectivamente.)0.2 0.8 p
glm
R
Os dados nesta figura são plotados com discos cujas áreas são proporcionais aos tamanhos da amostra. O ajuste do GLM é curvilíneo. Mostrada para comparação, em cinza, é a linha que obteríamos apenas despejando os dados mostrados na pergunta em um solucionador de Mínimos Quadrados Ordinários. Ambos os ajustes são influenciados pelas maiores proporções nos anos anteriores, apesar dos pequenos tamanhos de amostra. No entanto, o ajuste GLM faz um trabalho melhor na aproximação das proporções nas maiores amostras obtidas em 1970 e 1980. A linha azul pontilhada é descrita abaixo.(Year,Proportion)
Ao adicionar um termo quadrático, podemos testar a qualidade do ajuste. Melhora significativamente o ajuste do GLM (embora visualmente a diferença não seja grande), fornecendo evidências de que este modelo não descreve bem a variação nos resultados. Observar o gráfico indica que o resultado em 1990 foi muito menor do que o modelo prevê.
Uma abordagem alternativa, mas comparável, é estimar individualmente para cada ano , talvez como (embora outros estimadores sejam possíveis). Uma regressão linear das chances logarítmicas dessas estimativas em relação ao ano, ponderada pelo tamanho da amostra ou regressão dos mínimos quadrados ponderados, gerap ti ki/ni ni
Os erros padrão dessas estimativas são e , respectivamente, indicando que as estimativas do WLS não são significativamente diferentes do GLM binomial. (Porém, os erros padrão do GLM são consideravelmente menores: "sabe" que esses tamanhos de amostra são bastante grandes, enquanto a regressão linear "não sabe" nada sobre o tamanho das amostras: possui apenas uma sequência de dez observações separadas.) Observe que isso alternativa pode não estar disponível se ou , a menos que um estimador diferente de probabilidades seja usado (o que não produz valores de ou ).15.55 0.00787 ki=ni ki=0 0 1
Finalmente, podemos simplesmente executar uma regressão ponderada dos mínimos quadrados das estimativas brutas de probabilidade relação ao ano, inversamente ponderadas por uma estimativa da variação da amostra. A variação de uma variável binomial , re-expressa como uma proporção é . Isso pode ser estimado a partir de uma amostra comok/n (n,p) X X/n p(1−p)/n
Seu resultado aparece na figura como uma linha azul pontilhada. Nesse caso, parece haver comprometimento entre os ajustes GLM e OLS.
O
R
código a seguir executou as análises e produziu a figura.fonte