Qual é a diferença entre regressão beta e quase glm com variância =

8

Primeiro, deixe-me dar uma base; Resumirei minhas perguntas no final.

A distribuição Beta, parametrizada por sua média e ϕ , possui Var ( Y ) = V ( μ ) / ( ϕ + 1 ) , onde V ( μ ) = μ ( 1 - μ ) é a função de variância.μϕVar(Y)=V(μ)/(ϕ+1)V(μ)=μ(1μ)

Em uma regressão beta (por exemplo, usando o pacote betareg em R), a regressão assume erros distribuídos em beta e estima os efeitos fixos e o valor de .ϕ

Na regressão glm, é possível definir uma distribuição "quase" com uma função de variação de . Portanto, aqui o modelo assume erros com a mesma função de variação que Beta. A regressão estima os efeitos fixos e a "dispersão" da distribuição quase.μ(1μ)

Talvez esteja faltando algo importante, mas parece que esses dois métodos são essencialmente idênticos, talvez diferindo apenas no método de estimativa.

Eu tentei os dois métodos em R, regredindo em um DV chamado "Similarity", que está no intervalo :(0,1)

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

ϕϕϕ=1/Dispersion1

No entanto, nenhum desses valores é idêntico.

Isso ocorre porque a única coisa que realmente difere nos dois métodos é o seu procedimento de estimativa? Ou há alguma diferença mais fundamental que estou sentindo falta? Além disso, existe algum motivo para preferir um método ao outro?

Andrew Milne
fonte
Parece que você redescoberto regressão logística fracionada ...
O Laconic

Respostas:

5

Você está certo de que as funções de média e variação são da mesma forma.

Isso sugere que em amostras muito grandes, desde que você não tenha observações realmente próximas de 1 ou 0, elas tenderão a fornecer respostas bastante semelhantes, porque nessa situação as observações terão pesos relativos semelhantes.

Mas em amostras menores, onde algumas das proporções contínuas se aproximam dos limites, as diferenças podem aumentar porque os pesos relativos dados pelas duas abordagens diferem; se os pontos que obtêm pesos diferentes também são relativamente influentes (mais extremos no espaço x), as diferenças podem, em alguns casos, tornar-se substanciais.

Na regressão beta, você estimaria via ML e, no caso de um modelo quase-binomial - pelo menos um estimado em R, observe este comentário na ajuda:

As famílias quasibinomial e quasipoisson diferem das famílias binomial e poisson apenas pelo fato de o parâmetro de dispersão não ser fixo em um, para que possam modelar a dispersão excessiva. Para o caso binomial, ver McCullagh e Nelder (1989, pp. 124–8). Embora eles mostrem que existe (sob algumas restrições) um modelo com variação proporcional à média, como no modelo quase binomial, observe que o glm não calcula estimativas de máxima verossimilhança nesse modelo. O comportamento de S está mais próximo das quase variantes.

hii

Observe que a vinheta betareg oferece uma discussão sobre a conexão entre esses modelos no final da seção 2.

Glen_b -Reinstate Monica
fonte
Eu suponho por "amostras" que você está se referindo a observações de sucessos e fracassos? Meu DV "Similarity" não é uma proporção de sucessos; é a semelhança de cosseno ou dois vetores de alta dimensão e é delimitada entre 0 e 1 sem possibilidade de um valor de 0 ou 1. A distribuição beta parece uma escolha razoável para esses dados. A razão pela qual estou interessado em transferir para o glm é porque desejo adicionar um efeito aleatório também, o que não é possível no betareg. Estou tentando verificar se, em um cenário como o meu, quase com mu (1-mu) é essencialmente o mesmo.
Andrew Milne
Quero dizer amostra no sentido estatístico comum , mas definitivamente não quero dizer uma amostra de contagens. Quero dizer uma amostra de valores contínuos entre 0 e 1 (que geralmente são proporções para a regressão beta). Se eu estivesse falando sobre proporções de contagem de modelagem, não estaria falando sobre problemas em estar "próximo de" 0 ou 1, estaria falando sobre os problemas maiores em estar exatamente em 0 e 1.
Glen_b -Reinstate Monica
Obrigado pelo esclarecimento. Provavelmente estou perdendo algo óbvio, mas não está claro para mim por que o tamanho da amostra (no sentido tradicional que você quer dizer) é relevante aqui, ou por que valores próximos a 0 ou 1 seriam tratados de maneira diferente na abordagem beta versus pseudo glm. Você pode explicar um pouco?
Andrew Milne
1
nn