Eu tenho o seguinte modelo linear generalizado. O objeto glmDV
é modelado como uma proporção de sucessos em relação ao total de tentativas. Os objetos x_i
são variáveis contínuas.
Como isso se parece na notação matemática?
winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7,
data=myData, family=binomial("logit"))
r
generalized-linear-model
logit
notation
user2205916
fonte
fonte
0
s &1
s (o que eu deduzo é o que você baseou em sua descrição), você deve usar umweights
argumento w / ? Glm , onde os pesos são o número total de tentativas para cada observação.Respostas:
Para uma regressão logística binária, o caso de uso usual para o GLM binomial com um link de logit, você está modelando a probabilidade de que sua variável dependente seja um "sucesso" (ou "sim"), convencionalmente codificado como . A maneira como você está fazendo isso é modelando as probabilidades de log. Portanto, em vez de modelar a média da resposta como no OLS, você está modelando a alteração nas probabilidades do log:Pr ( Y = 1 ) = θ = logit - 1 ( β 0 + β 1 x 1 + β 2 x 2 + . . . + Β 7 x 7 )1
Onde e .logit-1(x)=exp(x)logit ( x ) = log( x1 - x) logit- 1( x ) = exp( X )1 + exp( X )
Uma explicação mais completa e muito acessível sobre isso pode ser encontrada em Agresti, Uma introdução à análise de dados categóricos.
Mas para sua pergunta específica, você afirma que está modelando a proporção de sucessos. Na verdade, não é isso que um GLM binomial está acostumado a fazer. No entanto, o que você realmente procura é o que um GLM binomial faz, e ainda é possível em R. Isso requer apenas um pequeno ajuste no que você está fazendo. No caso de você ter um número finito de tentativas que podem ter , você ainda pode usar o mesmo modelo, que possui densidade Como seus valores são fixados pelo design experimental e são seus sucessos observados, você está realizando uma inferência no parâmetroy ∈ { 0 ... n } Pr ( y ) ∼ ( nn y∈ { 0 ... n }
Em termos de R, basta criar um objeto (denominadoy n - y
glmDV
) que é uma matriz de duas colunas, a primeira coluna o número de sucessos e a segunda o número total de falhas . O restante da declaração permanece o mesmo!n - yfonte
glm
e, pelo que sei , ele aceita apenas uma variável de resposta de 1 coluna, não duas colunas. Corrija-me se estiver errado e cite a documentação relevante, se possível. Obrigado!glm
documentação. Uma boa maneira de aprender sobre como as funções do R funcionam é pesquisar no Google o nome da função; isso geralmente exibe a documentação relevante. Você também pode digitar?glm
em um console R