Quando executo uma regressão linear em alguns pacotes de software (por exemplo, Mathematica), obtenho valores de p associados aos parâmetros individuais no modelo. Por exemplo, os resultados de uma regressão linear que produz um resultado terão um valor p associado a e um com b .
O que esses valores p significam individualmente sobre esses parâmetros?
Existe uma maneira geral de calcular parâmetros para qualquer modelo de regressão?
O valor p associado a cada parâmetro pode ser combinado em um valor p para todo o modelo?
Para manter essa questão de natureza matemática, busco apenas a interpretação dos valores-p em termos de probabilidades.
probability
regression
Henry B.
fonte
fonte
Respostas:
O valor de p para é o valor de p em um teste da hipótese " α = 0 " (geralmente um teste t de dois lados ). O valor de p para b é o valor de p em um teste da hipótese " β = 0 " (também geralmente um teste t de dois lados ) e da mesma forma para quaisquer outros coeficientes na regressão. Os modelos de probabilidade para esses testes são determinados pelo assumido no modelo de regressão linear. Para regressão linear de mínimos quadrados, o par ( a , b ) segue uma distribuição normal bivariada centrada nos valores reais dos parâmetros ( α , βa α=0 t b β=0 t a,b α,β ), e o teste de hipótese para cada coeficiente é equivalente ao teste se α = 0 (resp. β = 0 ) com base em amostras de uma distribuição normal adequada [de uma variável, isto é, a distribuição de a ou b sozinha]. Os detalhes dos quais distribuições normais aparecem são um pouco complicados e envolvem "graus de liberdade" e "matrizes chapéu" (com base na notação de A para algumas das matrizes que constantemente aparecem na teoria da regressão OLS).t α=0 β=0 a b A^
Sim. Normalmente, isso é feito (e definido) pela estimativa de máxima verossimilhança . Para a regressão linear OLS e um pequeno número de outros modelos, existem fórmulas exatas para estimar os parâmetros a partir dos dados. Para regressões mais gerais, as soluções são de natureza iterativa e numérica.
Não diretamente. Um valor-p é calculado separadamente para um teste de todo o modelo, ou seja, um teste da hipótese de que todos os coeficientes (das variáveis que se supõe realmente variam), não incluindo o coeficiente do "termo constante" se houver 1). Mas esse valor p não pode geralmente ser calculado a partir do conhecimento dos valores p dos coeficientes.
fonte
escreva sua primeira pergunta: isso depende do seu software de escolha. Na verdade, existem dois tipos de valores-p usados com freqüência nesses cenários, ambos geralmente baseados em testes de razão de verossimilhança (existem outros, mas esses geralmente são equivalentes ou pelo menos diferem pouco em seus resultados).
É importante perceber que todos esses valores p são condicionais (parte) do restante dos parâmetros. Isso significa: Supondo que (algumas das) outras estimativas de parâmetros estejam corretas, você testa se o coeficiente de um parâmetro é zero ou não. Normalmente, a hipótese nula para esses testes é que o coeficiente é zero; portanto, se você tiver um pequeno valor p, isso significa (condicionalmente no valor dos outros coeficientes) que é improvável que o coeficiente em si seja zero.
O tipo I testa o teste da ausência de zinco de cada coeficiente condicionalmente no valor dos coeficientes que vêm antes dele no modelo (da esquerda para a direita). Ensaios do tipo III (ensaios marginais), teste para o zeroness de cada coeficiente, dependendo do valor de todos os outros coeficientes.
Ferramentas diferentes apresentam valores-p diferentes como padrão, embora normalmente você tenha maneiras de obter os dois. Se você não tiver um motivo fora das estatísticas para incluir os parâmetros em alguma ordem, geralmente estará interessado nos resultados do teste do tipo III.
Finalmente (relacionado mais à sua última pergunta), com um teste de razão de verossimilhança, você sempre pode criar um teste para qualquer conjunto de coeficientes condicionais aos demais. Este é o caminho a percorrer se você deseja testar múltiplos coeficientes que são zero ao mesmo tempo (caso contrário, você se deparará com alguns problemas desagradáveis de múltiplos testes).
fonte