O quadrado R ajustado procura estimar a pontuação fixa ou a população de pontuação aleatória r-quadrado?

9

A população r-quadrado pode ser definida assumindo pontuações fixas ou pontuações aleatórias:ρ2

  • Pontuações fixas: O tamanho da amostra e os valores particulares dos preditores são mantidos fixos. Assim, é a proporção de variância explicada no resultado pela equação de regressão populacional quando os valores do preditor são mantidos constantes.ρf2

  • Pontuações aleatórias: Os valores específicos dos preditores são obtidos de uma distribuição. Assim, refere-se à proporção de variação explicada no resultado na população em que os valores do preditor correspondem à distribuição da população dos preditores.ρr2

Eu já perguntei anteriormente se essa distinção faz muita diferença nas estimativas deρ2ρ 2 . Eu também perguntei geralmente sobre como calcular uma estimativa imparcial de ρ2 .

Percebo que à medida que o tamanho da amostra aumenta, a distinção entre pontuação fixa e pontuação aleatória se torna menos importante. No entanto, estou tentando confirmar se ajustado foi projetado para estimar pontuação fixa ou pontuação aleatória .ρ 2R2ρ2

Questões

  • O ajustado é projetado para estimar pontuação fixa ou pontuação aleatória ?ρ 2R2ρ2
  • Existe uma explicação baseada em princípios de como a fórmula do quadrado r ajustado se relaciona com uma ou outra forma de ?ρ2

Antecedentes da minha confusão

Quando leio Yin e Fan (2001, p.206), eles escrevem:

Uma das premissas básicas do modelo de regressão múltipla é que os valores das variáveis ​​independentes são constantes conhecidas e são fixadas pelo pesquisador antes do experimento. Somente a variável dependente pode variar de amostra para amostra. Esse modelo de regressão é chamado de modelo de regressão linear fixo .

No entanto, nas ciências sociais e comportamentais, os valores das variáveis ​​independentes raramente são fixados pelos pesquisadores e também estão sujeitos a erros aleatórios. Portanto, um segundo modelo de regressão para aplicações foi sugerido, no qual as variáveis ​​dependentes e independentes podem variar (Binder, 1959; Park & ​​Dudycha, 1974). Esse modelo é chamado de modelo aleatório (ou modelo de correção). Embora as estimativas de máxima verossimilhança dos coeficientes de regressão obtidos nos modelos aleatório e fixo sejam as mesmas nas premissas de normalidade, suas distribuições são muito diferentes. O modelo aleatório é tão complexo que é necessária mais pesquisa antes de ser aceita no lugar do modelo de regressão linear fixo comumente usado. Portanto, o modelo fixo é geralmente aplicado, mesmo quando as suposições não são cumpridas completamente (Claudy, 1978). Tais aplicações do modelo de regressão fixo com suposições violadas causariam "ajuste excessivo", porque o erro aleatório introduzido a partir dos dados de amostra menos do que perfeitos tende a ser capitalizado no processo. Como resultado, o coeficiente de correlação múltipla da amostra obtido dessa maneira tende a superestimar a verdadeira correlação múltipla da população (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).

Portanto, não fiquei claro se a afirmação acima está dizendo que ajustado compensa o erro introduzido pelo modelo aleatório ou se isso foi apenas uma ressalva no artigo sinalizando a existência do modelo aleatório, mas que o artigo iria foco no modelo fixo.R2

Referências

  • Yin, P., & Fan, X. (2001). Estimando o encolhimento de na regressão múltipla: Uma comparação de diferentes métodos analíticos. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
fonte

Respostas:

6

Raju et al (1997) observam que

Pedhazur (1982) e Mitchell e Klimoski (1986) argumentaram que os resultados não são
afetados pelo modelo [fixo-x ou aleatório-x] selecionado quando Ns são pelo menos de tamanho moderado (aproximadamente 50).

No entanto, Raju et al (1997) classificam algumas fórmulas ajustadas para estimar como "Fórmulas X fixas" e "Fórmulas X aleatórias".ρ 2R2ρ2

Fórmulas X fixas: Várias fórmulas são mencionadas, incluindo a fórmula proposta por Ezekiel (1930), que é padrão na maioria dos softwares estatísticos:

ρ^(E)2=1N1Np1(1R2)

Assim, a resposta curta para a pergunta é a fórmula ajustada padrão normalmente relatada e incorporada ao software estatístico padrão é uma estimativa de x- fixo .ρ 2R2ρ2

Fórmulas aleatórias X:

Olkin e Pratt (1958) propuseram uma fórmula

ρ^(OP)2=1[N3Np1](1R2)F[1,1;Np+12;(1R2)]
que F é a função hipergeométrica .

Raju et al (1997) explicam como várias outras fórmulas, como as de Pratt e Herzberg "são aproximações da função hipergeométrica esperada". Por exemplo, a fórmula de Pratt é

ρ^(P)2=1(N3)(1R2)Np1[1+2(1R2)Np2.3]

Como as estimativas diferem? O relatório de Leach e Hansen (2003) apresenta uma boa tabela mostrando o efeito de diferentes fórmulas em uma amostra de diferentes conjuntos de dados publicados em psicologia (consulte a Tabela 3). A média de Ezequiel foi 0,2864 em comparação com Olkin e Pratt de 0,2917 e Pratt de 0,2910. Conforme a citação inicial de Raju et al sobre a distinção entre fórmulas fixas e aleatórias x sendo mais relevantes para amostras pequenas, a tabela de Leach e Hansen mostra como a diferença entre a fórmula fixada x de Ezequiel e a fórmula aleatória x de Olkin e Pratt é mais proeminente em amostras pequenas, principalmente aquelas com menos de 50 anos. R 2 a d j R 2 a d jRadj2Radj2Radj2

Referências

  • Leach, LF e Henson, RK (2003). O uso e o impacto dos efeitos de R2 ajustados na pesquisa de regressão publicada. Na reunião anual da Associação de Pesquisa Educacional do Sudoeste, San Antonio, TX. PDF
  • Mitchell, TW e Klimoski, RJ (1986). Estimando a validade da estimativa de validade cruzada. Jornal de Psicologia Aplicada, 71 , 311-317.
  • Pedhazur, EJ (1982). Regressão múltipla em pesquisa comportamental (2ª ed.) Nova York: Holt, Rinehart e Winston.
  • Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Revisão da metodologia: Estimativa da validade e validade cruzada da população e o uso de pesos iguais na previsão. Medida Psicológica Aplicada, 21 (4), 291-305.
Jeromy Anglim
fonte