Suponha que eu ajuste uma regressão binomial e obtenha as estimativas pontuais e a matriz de variância-covariância dos coeficientes de regressão. Isso me permitirá obter um IC para a proporção esperada de sucessos em um experimento futuro, , mas preciso de um IC para a proporção observada. Foram postadas algumas respostas relacionadas, incluindo simulação (suponha que eu não queira fazer isso) e um link para Krishnamoorthya et al (que não responde totalmente à minha pergunta).
Meu raciocínio é o seguinte: se usarmos apenas o modelo Binomial, somos forçados a assumir que é amostrado da distribuição Normal (com o correspondente Wald CI) e, portanto, é impossível obter o IC para a proporção observada em forma fechada. Se assumirmos que é amostrado da distribuição beta, as coisas ficam muito mais fáceis porque a contagem de sucessos seguirá a distribuição beta-binomial. Teremos que assumir que não há incerteza nos parâmetros beta estimados, e .
Existem três perguntas:
1) Teórico: pode-se usar apenas as estimativas pontuais dos parâmetros beta? Eu sei que para construir um IC para observação futura em regressão linear múltipla
eles fazem essa variância do termo de erro errado, . Entendo (corrija-me se estiver errado) que a justificativa é que na prática seja estimado com uma precisão muito maior do que os coeficientes de regressão e não ganharemos muito tentando incorporar a incerteza de . Uma justificativa semelhante é aplicável aos parâmetros beta estimados, e ?
2) Qual pacote é melhor (R: gamlss-bb, betareg, aod ?; eu também tenho acesso ao SAS).
3) Dados os parâmetros beta estimados, existe um atalho (aproximado) para obter os quantis (2,5%, 97,5%) para a contagem de sucessos futuros ou, melhor ainda, para a proporção de sucessos futuros na distribuição beta-binomial.
Respostas:
Vou abordar todas as três partes da questão.
Existem duas questões conflitantes, primeiro é o método que você usa para ajustar um modelo de regressão neste caso. A segunda é como intervalo de estimativas a partir de suas estimativas para prever uma nova estimativa.
se suas variáveis de resposta forem distribuídas binomialmente, você normalmente usaria uma regressão logística ou uma regressão probit (glm com cdf normal como uma função de link).
Se você fizer uma regressão logística, considere a resposta como a razão das contagens observadas divididas pelo limite superior conhecido, ou seja, . Em seguida, pegue seus preditores / covariáveis e coloque-os na sua chamada R para uma função glm. O objeto retornado tem tudo o que você precisa para fazer o resto de seus cálculos.yi/ni
Para um modelo de regressão linear , a fórmula para um intervalo de previsão é:
Você pode usar o modelo de regressão linear como uma aproximação para o glm. Para fazer isso, você faria a fórmula de regressão linear para a combinação linear de preditores antes de fazer a transformação de link inverso para obter as probabilidades de volta na escala 0-1. O código para fazer isso é inserido na função R do forecast.glm (). Aqui está um exemplo de código que também fará um bom gráfico. ( EDIT : este código é para intervalo de confiança, não para intervalo de previsão)
Você pode fazer o mesmo com qualquer glm, por exemplo, Poisson, Gaussiano inverso, gama, etc. Em cada caso, faça o intervalo de previsão na escala da combinação linear dos preditores. Depois de obter os dois pontos finais do intervalo de previsão, você os converte por meio do link inverso. Para cada uma das glms mencionadas, o link inverso pode ser diferente do caso de logit que escrevi aqui. Espero que isto ajude.
fonte