Estou analisando alguns problemas de regressão logística. ("regular" e "condicional").
Idealmente, eu gostaria de ponderar cada um dos casos de entrada para que o glm se concentre mais em prever os casos de maior peso corretamente, às custas de possivelmente classificar incorretamente os casos de menor peso.
Certamente isso já foi feito antes. Alguém pode me indicar uma literatura relevante (ou sugerir uma função de probabilidade modificada).
Obrigado!
Respostas:
glm
mantém um parâmetroweights
exatamente para esse fim. Você fornece a ele um vetor de números em qualquer escala, que contém o mesmo número de pesos que as observações.Só agora percebo que você pode não estar falando
R
. Caso contrário, você pode querer.fonte
glm
(provavelmente) encontrar uma implementação em C.Se você tiver acesso ao SAS, isso será realizado com muita facilidade usando o PROC GENMOD. Desde que cada observação tenha uma variável de peso, o uso da declaração de peso permitirá que você faça o tipo de análise que está procurando. Eu o usei principalmente usando pesos de probabilidade inversa de tratamento, mas não vejo razão para que você não possa atribuir pesos aos seus dados para enfatizar certos tipos de casos, desde que você verifique se seu N permanece constante. Você também deve incluir algum tipo de variável de ID, porque tecnicamente os casos com ponderação alta são observações repetidas. Código de exemplo, com um ID de observação de 'id' e uma variável de peso de 'wt':
fonte