Intervalo de confiança em torno da razão de duas proporções

20

Tenho duas proporções (por exemplo, taxa de cliques (CTR) em um link em um layout de controle e CTR em um link em um layout experimental) e quero calcular um intervalo de confiança de 95% em torno da proporção dessas proporções.

Como eu faço isso? Eu sei que posso usar o método delta para calcular a variação dessa proporção, mas não tenho certeza do que fazer além disso. O que devo usar como ponto médio do intervalo de confiança (minha taxa observada ou a taxa esperada diferente) e quantos desvios padrão em torno dessa taxa devo tomar?

Devo estar usando a variação do método delta? (Eu realmente não me importo com a variação, apenas um intervalo de confiança.) Devo usar o Teorema de Fieller , usando o Caso 1 (já que estou fazendo proporções, acho que satisfaz o requisito de distribuição normal)? Devo apenas calcular uma amostra de bootstrap?

raegtin
fonte
1
Você tem um problema fundamental: a maioria das proporções tem uma chance positiva de ser zero, e a razão (de proporções independentes) tem uma chance positiva de ser indefinida. Isso pode apresentar sérias dificuldades para métodos aproximados (como o método delta) e sugere que as aproximações normais devem ser vistas com mais ceticismo e testadas com mais rigor do que o habitual.
whuber
Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Métodos Estatísticos para Taxas e Proporções [1] discute o Risco Relativo, que é um quociente de duas taxas. Como não tenho o livro, posso apenas pesquisar o índice de assuntos e o índice, mas talvez sua biblioteca o tenha. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites suporta Monica
Certamente um bootstrap de percentil seria o melhor método?
Peter Ellis

Respostas:

19

A maneira padrão de fazer isso em epidemiologia (em que uma proporção de proporções é geralmente chamada de razão de risco ) é primeiro transformar a razão por log, calcular um intervalo de confiança na escala de log usando o método delta e assumindo uma distribuição normal, então volte a transformar. Isso funciona melhor em tamanhos moderados de amostra do que o método delta na escala não transformada, embora ainda se comporte mal se o número de eventos em ambos os grupos for muito pequeno e falhe completamente se não houver eventos em nenhum dos grupos.

Se existirem e x 2 sucessos nos dois grupos em cada totais n 1 e n 2 , então a estimativa óbvio para o rácio de proporções é θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

Usando o método de delta e assumindo que os dois grupos são independentes e os êxitos são binomial distribuído, é possível mostrar que Tomando a raiz quadrada dessa dá o erro padrão SE ( log θ ) . Partindo do princípio de que o log θ é normalmente distribuída, um intervalo de confiança de 95% para o log θ

Var(registroθ^)=1/x1-1/n1+1/x2-1/n2.
SE(registroθ^)registroθ^registroθé Exponencializando Isto dá um intervalo de confiança de 95% para a razão de proporções q como θ exp [ ± 1,96 SE ( log θ ) ] .
registroθ^±1,96SE(registroθ^).
θ
θ^exp[±1,96SE(registroθ^)].
uma parada
fonte
5
n1n2n1p1n2p210x2=0 0xEu=nEu1/2xEu1nEupEunEu4nEu
@ whuber: "abordagem de correção de continuidade" - é o uso de 1/2 em particular um truque comum? (Ao contrário de alguns outros pequenos pseudo-contadores.) A maneira como você expressou faz com que 1/2 pareça um princípio de alguma forma =) - é?
raegtin
xEunEu
Por que o erro padrão da raiz quadrada da variância, neste caso, não é o desvio padrão?
11133 Mikko
2
@ onestop Isso é implementado em qualquer pacote R?
Bogdan Vasilescu