Significado dos valores de p em regressão

27

Quando executo uma regressão linear em alguns pacotes de software (por exemplo, Mathematica), obtenho valores de p associados aos parâmetros individuais no modelo. Por exemplo, os resultados de uma regressão linear que produz um resultado terão um valor p associado a e um com b .ax+bab

  1. O que esses valores p significam individualmente sobre esses parâmetros?

  2. Existe uma maneira geral de calcular parâmetros para qualquer modelo de regressão?

  3. O valor p associado a cada parâmetro pode ser combinado em um valor p para todo o modelo?

Para manter essa questão de natureza matemática, busco apenas a interpretação dos valores-p em termos de probabilidades.

Henry B.
fonte
A resposta de Gavin na pergunta @cardinal linked to diz bem.
JM não é um estatístico
6
@zyx, não há nada avançado nas perguntas do OP. Essas são perguntas muito comuns para as quais, na minha opinião, stats.SE é mais apropriado - e com as quais os participantes estão mais sintonizados também. Math.SE e MO são excelentes recursos para perguntas de probabilidade, mas muito menos para questões estatísticas. As perguntas do OP se inclinam muito mais para o último.
cardeal
@ cardinal: acompanho o stats.SE desde o início da versão beta pública. Das 4800+ perguntas feitas até o momento, não consegui localizar uma que solicite ou responda ao item 3 do OP, o que é estranho se for uma consulta "muito comum". Também não vi respostas conceitualmente precisas para o item 1 nas poucas vezes em que apareceu. Acho que essas coisas devem ser postadas em math.SE e MO periodicamente para atrair a atenção de um público maior, não migrado em questão de minutos para stats.SE. Não faz mal para também pedir em stat.SE mas transformar esta última no único lugar onde as estatísticas podem ser discutida não é útil.
Zyx 29/08
Agora há um tópico sobre as migrações math.SE para stats.SE no meta.math.SE.
Zyx
(Alguns comentários mencionados acima foram perdidos na migração Eles são visíveis na postagem math.SE original, vinculada a seguir ao lado das palavras "migraram de ...".)
zyx

Respostas:

13
  1. O valor de p para é o valor de p em um teste da hipótese " α = 0 " (geralmente um teste t de dois lados ). O valor de p para b é o valor de p em um teste da hipótese " β = 0 " (também geralmente um teste t de dois lados ) e da mesma forma para quaisquer outros coeficientes na regressão. Os modelos de probabilidade para esses testes são determinados pelo assumido no modelo de regressão linear. Para regressão linear de mínimos quadrados, o par ( a , b ) segue uma distribuição normal bivariada centrada nos valores reais dos parâmetros ( α , βaα=0tbβ=0ta,bα,β), e o teste de hipótese para cada coeficiente é equivalente ao teste se α = 0 (resp. β = 0 ) com base em amostras de uma distribuição normal adequada [de uma variável, isto é, a distribuição de a ou b sozinha]. Os detalhes dos quais distribuições normais aparecem são um pouco complicados e envolvem "graus de liberdade" e "matrizes chapéu" (com base na notação de A para algumas das matrizes que constantemente aparecem na teoria da regressão OLS).tα=0β=0abA^

  2. Sim. Normalmente, isso é feito (e definido) pela estimativa de máxima verossimilhança . Para a regressão linear OLS e um pequeno número de outros modelos, existem fórmulas exatas para estimar os parâmetros a partir dos dados. Para regressões mais gerais, as soluções são de natureza iterativa e numérica.

  3. Não diretamente. Um valor-p é calculado separadamente para um teste de todo o modelo, ou seja, um teste da hipótese de que todos os coeficientes (das variáveis ​​que se supõe realmente variam), não incluindo o coeficiente do "termo constante" se houver 1). Mas esse valor p não pode geralmente ser calculado a partir do conhecimento dos valores p dos coeficientes.

zyx
fonte
2
pppF
@ NR: Desculpe, você pode esclarecer seu comentário anterior. Ainda não o sigo (ainda). :)
cardeal
@ cardinal: parece mais preciso dizer que um valor p está associado a um teste de hipótese. Os parâmetros aparecem na hipótese nula do teste e o par (valor observado do estimador, hipótese alternativa) determina o valor de p. As hipóteses nulas devem ser descritas usando parâmetros, como α = 0, em vez de estimadores a = 0, como foi feito [sem cuidado] na resposta original, agora editada (obrigado por apontar o erro). No entanto, a distinção supostamente confusa ou ausente "os estimadores são normais bivariados, não os parâmetros" foi declarada explicitamente na resposta.
Zyx
1
Desculpe, eu simplesmente não pude resistir. O @zyx fez um comentário no post original no math.SE que as respostas no stat.SE eram muitas vezes imprecisas. Acho que muitas respostas são bastante precisas, embora às vezes imprecisas em matemática. Isso é da natureza das coisas. As perguntas e respostas estatísticas nem sempre podem ser reduzidas a declarações matemáticas precisas. Em particular, não os difíceis. No entanto, a resposta fornecida aqui não é particularmente exata nem precisa na minha opinião.
NRH 29/08/11
3
Eu acho que seria bom se quem votasse abaixo fornecesse um comentário explicativo.
cardeal
1

escreva sua primeira pergunta: isso depende do seu software de escolha. Na verdade, existem dois tipos de valores-p usados ​​com freqüência nesses cenários, ambos geralmente baseados em testes de razão de verossimilhança (existem outros, mas esses geralmente são equivalentes ou pelo menos diferem pouco em seus resultados).

É importante perceber que todos esses valores p são condicionais (parte) do restante dos parâmetros. Isso significa: Supondo que (algumas das) outras estimativas de parâmetros estejam corretas, você testa se o coeficiente de um parâmetro é zero ou não. Normalmente, a hipótese nula para esses testes é que o coeficiente é zero; portanto, se você tiver um pequeno valor p, isso significa (condicionalmente no valor dos outros coeficientes) que é improvável que o coeficiente em si seja zero.

O tipo I testa o teste da ausência de zinco de cada coeficiente condicionalmente no valor dos coeficientes que vêm antes dele no modelo (da esquerda para a direita). Ensaios do tipo III (ensaios marginais), teste para o zeroness de cada coeficiente, dependendo do valor de todos os outros coeficientes.

Ferramentas diferentes apresentam valores-p diferentes como padrão, embora normalmente você tenha maneiras de obter os dois. Se você não tiver um motivo fora das estatísticas para incluir os parâmetros em alguma ordem, geralmente estará interessado nos resultados do teste do tipo III.

Finalmente (relacionado mais à sua última pergunta), com um teste de razão de verossimilhança, você sempre pode criar um teste para qualquer conjunto de coeficientes condicionais aos demais. Este é o caminho a percorrer se você deseja testar múltiplos coeficientes que são zero ao mesmo tempo (caso contrário, você se deparará com alguns problemas desagradáveis ​​de múltiplos testes).

Nick Sabbe
fonte
pψ=cβt=ψ^ψ0σ^c(XX)1c
ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcjψ0=0t
A essência da questão é capturada, por exemplo, aqui . Lembre-se de que a anova é apenas um caso especial de regressão. Basicamente, tudo se resume a isso: se você fizer um teste de ausência de (coeficiente de) variável A em um modelo com ou sem a variável B, poderá obter resultados diferentes. Portanto, o resultado é condicional ao seu modelo, aos dados (mesmo para os valores da variável B) e, portanto, aos coeficientes não no seu teste, mas no seu modelo. Encontrar essa idéia na matemática pode ser um pouco mais difícil :-)
Nick Sabbe
p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
O caso contínuo deve ser completamente equivalente a uma variável dicotômica 0-1 codificada.
Nick Sabbe 29/08/11