Estou familiarizado com o uso de várias regressões lineares para criar modelos de várias variáveis. No entanto, fiquei curioso para saber se os testes de regressão são usados para fazer algum tipo de teste básico de hipóteses. Se sim, como seriam esses cenários / hipóteses?
regression
hypothesis-testing
multiple-regression
cryptic_star
fonte
fonte
Respostas:
Aqui está um exemplo simples. Não sei se você conhece R, mas espero que o código seja suficientemente auto-explicativo.
Agora, vamos ver como é isso:
Podemos nos concentrar na seção "Coeficientes" da saída. Cada parâmetro estimado pelo modelo obtém sua própria linha. A própria estimativa real é listada na primeira coluna. A segunda coluna lista os erros padrão das estimativas, ou seja, uma estimativa de quanto as estimativas "saltariam" de amostra em amostra, se repetíssemos esse processo repetidamente. Mais especificamente, é uma estimativa do desvio padrão da distribuição amostral da estimativa. Se dividirmos cada estimativa de parâmetro pelo seu SE, obtemos um escore t , listado na terceira coluna; isso é usado para o teste de hipóteses, especificamente para testar se a estimativa de parâmetro é 'significativamente' diferente de 0. A última coluna é avalor de p associado a esse t-score. É a probabilidade de encontrar um valor estimado que seja distante ou mais de 0, se a hipótese nula for verdadeira. Observe que, se a hipótese nula não for verdadeira, não está claro que esse valor esteja nos dizendo algo significativo.
Se olharmos para a frente e para trás entre a tabela Coeficientes e o verdadeiro processo de geração de dados acima, podemos ver algumas coisas interessantes. A interceptação é estimada em -1,8 e seu SE é 27, enquanto o valor verdadeiro é 15. Como o valor p associado é 0,95, ele não seria considerado 'significativamente diferente' de 0 ( erro do tipo II ), mas está, no entanto, dentro de um SE do valor verdadeiro. Portanto, não há nada terrivelmente extremo nessa estimativa da perspectiva do valor verdadeiro e da quantidade que ele deve flutuar; nós simplesmente temos poder insuficiente para diferenciá-lo de 0. A mesma história vale, mais ou menos, para.21214 ≈ .2
x1
x2
x3
x1
prediz a variável resposta melhor que o acaso. Outra maneira de dizer isso é se todas as estimativas devem ser consideradas incapazes de serem diferenciadas de 0. Os resultados desse teste sugerem que pelo menos algumas das estimativas de parâmetros não são iguais a 0, outra decisão correta. Como existem quatro testes acima, não teríamos proteção contra o problema de múltiplas comparações sem isso. (Lembre-se de que, como os valores-p são variáveis aleatórias - se algo é significativo variaria de experimento para experimento, se o experimento fosse repetido - é possível que eles sejam inconsistentes um com o outro. CV aqui: Significado dos coeficientes na regressão múltipla: teste t significativo vs. estatística F não significativae a situação oposta aqui: como uma regressão pode ser significativa, mas todos os preditores não são significativos , & aqui: estatísticas F e t em uma regressão .) Talvez, curiosamente, não haja erros do tipo I neste exemplo. De qualquer forma, todos os 5 testes discutidos neste parágrafo são testes de hipóteses.Pelo seu comentário, entendo que você também pode se perguntar como determinar se uma variável explicativa é mais importante que outra. Essa é uma pergunta muito comum, mas é bastante complicada. Imagine querer prever o potencial de sucesso em um esporte com base na altura e peso de um atleta e se perguntar o que é mais importante. Uma estratégia comum é verificar qual coeficiente estimado é maior. No entanto, essas estimativas são específicas para as unidades que foram usadas: por exemplo, o coeficiente de peso mudará dependendo de libras ou quilogramas. Além disso, não está claro remotamente como equacionar / comparar libras e polegadas ou quilogramas e centímetros. Uma estratégia empregada pelas pessoas é padronizarR2 r = r2--√
fonte
O teste essencial nos modelos de regressão é o teste de redução total. É aqui que você está comparando dois modelos de regressão, o modelo Completo possui todos os termos e o teste Reduzido possui um subconjunto desses termos (o modelo Reduzido precisa ser aninhado no modelo Completo). O teste testa a hipótese nula de que o modelo reduzido se encaixa tão bem quanto o modelo completo e qualquer diferença se deve ao acaso.
As impressões comuns do software estatístico incluem um teste F geral, este é apenas o teste de redução total, em que o teste reduzido é um modelo apenas de interceptação. Eles também costumam imprimir um valor-p para cada preditor individual; isso é apenas uma série de testes de modelo com redução total; em cada um, o modelo reduzido não inclui esse termo específico. Existem várias maneiras de usar esses testes para responder perguntas de interesse. De fato, praticamente todos os testes ministrados em um curso introdutório de estatísticas podem ser calculados usando modelos de regressão e o teste de redução total, e os resultados serão idênticos em muitos casos e uma aproximação muito próxima em alguns outros.
fonte