Como escolher entre os diferentes Ajustado

15

Tenho em mente as fórmulas ajustadas ao quadrado R propostas por:

  • Ezequiel (1930), que acredito ser o atualmente usado no SPSS.

    Radjusted2=1(N1)(Np1)(1R2)
  • Olkin e Pratt (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

Em que circunstâncias (se houver) deve prefiro 'ajustada' para 'imparcial' ?R2

Referências

  1. Ezekiel, M. (1930). Métodos de análise de correlação . John Wiley e filhos, Nova York.
  2. Olkin I., Pratt JW (1958). Estimação imparcial de certos coeficientes de correlação. Annals of Mathematics Statistics , 29 (1), 201-211.
user1205901 - Restabelecer Monica
fonte

Respostas:

5

Sem querer assumir o crédito pela resposta @ttnphns, eu queria tirar a resposta dos comentários (especialmente considerando que o link para o artigo havia morrido). A resposta de Matt Krause fornece uma discussão útil da distinção entre e R 2 um d j mas não discute a decisão de que R 2 um d j fórmula para usar em qualquer caso dado.R2Radj2Radj2

Como eu discuto em esta resposta , Yin e Fan (2001) fornecem uma boa visão geral das muitas fórmulas diferentes para estimar a variância da população explicou , os quais poderiam ser rotulado como um tipo de ajustado R 2 .ρ2R2

Eles realizam uma simulação para avaliar qual de uma ampla variedade de fórmulas quadradas r ajustadas fornece a melhor estimativa imparcial para diferentes tamanhos de amostra, e intercorrelações preditivas. Eles sugerem que a fórmula de Pratt pode ser uma boa opção, mas não acho que o estudo tenha sido definitivo sobre o assunto.ρ2

Update: Raju et ai (1997) nota que é ajustada fórmulas diferentes com base em se eles se destinam a estimativa ajustada R 2 assumindo-x fixo ou aleatório-x predcitors. Especificamente, a fórmula de Ezekial é projetada para estimar ρ 2 no contexto x fixo, e as fórmulas de Olkin-Pratt e Pratt são projetadas para estimar ρ 2 no contexto x aleatório. Não há muita diferença entre as fórmulas de Olkin-Pratt e Pratt. As premissas de x fixo se alinham às experiências planejadas, as de x aleatórias se alinham quando você assume que os valores das variáveis ​​preditivas são uma amostra dos valores possíveis, como normalmente ocorre nos estudos observacionais. VejoR2R2ρ2ρ2esta resposta para uma discussão mais aprofundada . Também não há muita diferença entre os dois tipos de fórmulas, pois o tamanho da amostra fica moderadamente grande (veja aqui uma discussão sobre o tamanho da diferença ).

Resumo das regras de ouro

  • Se você presumir que suas observações para variáveis ​​preditivas são uma amostra aleatória de uma população e deseja estimar para a população completa de preditores e critérios (ou seja, suposição aleatória x), use a fórmula de Olkin-Pratt (ou a fórmula de Pratt).ρ2
  • Se você assumir que suas observações são fixas ou não deseja generalizar além dos níveis observados do preditor, faça uma estimativa de com a fórmula de Ezekiel.ρ2
  • Se você quiser saber sobre a previsão fora da amostra usando a equação de regressão da amostra, deverá procurar alguma forma de procedimento de validação cruzada.

Referências

  • Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Revisão da metodologia: Estimativa da validade e validade cruzada da população e o uso de pesos iguais na previsão. Medida Psicológica Aplicada, 21 (4), 291-305.
  • Yin, P., & Fan, X. (2001). Estimando encolhimento em regressão múltipla: A comparação de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
fonte
13

R2R2R2R2R2

R2r2r2R2R2

Matt Krause
fonte
2
Obrigado, achei uma explicação muito clara da diferença entre o quadrado R e o quadrado R ajustado. Na sua opinião, como o quadrado R imparcial se encaixa nessa imagem?
user1205901 - Reintegrar Monica
5
De fato, existem várias fórmulas para estimar a população R ^ 2. Veja, por exemplo, studyforquals.pbworks.com/f/yin.pdf . Diz-se que o "R ^ 2 ajustado" de Fisher (= Wherry) é ligeiramente inclinado negativamente (ainda depende do tamanho da amostra e não depende do número de preditores), portanto a versão de Olkin-Pratt é provavelmente um pouco melhor.
ttnphns
11
@ttnphns, talvez isso deva ser uma resposta em vez de um comentário. Para mim, parece abordar a questão original mais do que esta resposta.
gung - Reintegrar Monica
11
o R2o valor calculado a partir de uma amostra será um pouco menor que o valor "verdadeiro" da população. O gráfico na página 6/138 de uv.es/psicologica/articulos1.03/9.ZUMBO.pdf mostrando como o viés varia com o tamanho da amostra eR2valor. A fórmula de Olkin-Pratt corrige esse viés de tamanho da amostra. Parece haver duas versões da fórmula de Olkin-Pratt flutuando, uma das quais também corrige o número de parâmetros (consulte o link ttnphns). De fato, esse documento contém várias tabelas que ajudarão você a escolher um método de correção para sua aplicação específica, portanto vale a pena dar uma olhada.
Matt Krause
11
@ttnphns, eu concordo com Gung! Você deve escrever uma resposta e receber algum crédito. Além disso, você pode confirmar o que escrevi? O JStor está agindo de forma estranha hoje e não me deixa ler o artigo original de Olkin e Pratt.
Matt Krause