Contradição de significância na regressão linear: teste t significativo para um coeficiente versus estatística F não significativa

35

Estou ajustando um modelo de regressão linear múltipla entre 4 variáveis categóricas (com 4 níveis cada) e uma saída numérica. Meu conjunto de dados tem 43 observações.

A regressão fornece os seguintes valores de do teste para cada coeficiente de inclinação: . Assim, o coeficiente do 4º preditor é significativo no nível de confiança . $p$ $t$ $.15, .67, .27, .02$ $\alpha = .05$

Por outro lado, a regressão me dá um valor de um teste geral da hipótese nula de que todos os meus coeficientes de inclinação são iguais a zero. Para o meu conjunto de dados, esse valor- é . $p$ $F$ $p$ $.11$

Minha pergunta: como devo interpretar esses resultados? Qual valor de devo usar e por quê? O coeficiente da 4ª variável é significativamente diferente de no nível de confiança ? $p$ $0$ $\alpha = .05$

Eu vi uma pergunta relacionada, e estatísticas em uma regressão , mas não havia uma situação oposta: alta -Test -Valores e baixa -teste -valor. Honestamente, não entendo muito bem por que precisaríamos de um teste além de um teste para ver se os coeficientes de regressão linear são significativamente diferentes de zero. $F$ $t$ $t$ $p$ $F$ $p$ $F$ $t$

regression hypothesis-testing multiple-comparisons multiple-regression t-test Leo
fonte

2

Se você tem 4 variáveis categóricas com 4 níveis cada, você deve ter 3 * 4 = 12 coeficientes para as variáveis independentes (mais a interceptação) ...

Boscovich

@andrea: Eu decidi tratá-los como variáveis numéricas.

Leo

4

0,02 é pouco significativo (especialmente se você considerar o total de cinco testes) e 0,11 não é muito alto. Uma interpretação generosa seria que, com um pouco mais de força, o teste F geral também seria significativo (e talvez também o primeiro coeficiente). Uma interpretação mais conservadora é que você não deve ter muita confiança em nenhum desses resultados (incluindo o coeficiente com um valor de 0,02 p). De qualquer forma, você não deve ler muito na diferença entre 0,02 e 0,11.

Gala

3

Para uma discussão do caso oposto, você também pode ver aqui: como uma regressão pode ser significativa, mas todos os preditores não são significativos , além da pergunta acima.

gung - Restabelece Monica

37

Não tenho certeza de que multicolinearidade é o que está acontecendo aqui. Certamente poderia ser, mas pelas informações fornecidas, não posso concluir isso e não quero começar por aí. Meu primeiro palpite é que esse pode ser um problema de múltiplas comparações. Ou seja, se você executar testes suficientes, algo aparecerá, mesmo que não haja nada lá.

Uma das questões que abordo é que o problema das comparações múltiplas é sempre discutido em termos de examinar muitas comparações aos pares - por exemplo, executar testes t em todos os pares de níveis. (Para um tratamento bem-humorado de várias comparações, veja aqui .) Isso deixa as pessoas com a impressão de que esse é o único lugar em que esse problema aparece. Mas isso simplesmente não é verdade - o problema de múltiplas comparações aparece em toda parte. Por exemplo, se você executar uma regressão com 4 variáveis explicativas, os mesmos problemas existem. Em um experimento bem projetado, os IVs podem ser ortogonais, mas as pessoas rotineiramente se preocupam com o uso de correções de Bonferroni em conjuntos de contrastes ortogonais a priori e não pensam duas vezes em ANOVAs fatoriais. Para mim, isso é inconsistente.

O teste F global é o que chamamos de teste 'simultâneo'. Isso verifica se todos os seus preditores não estão relacionados à variável de resposta. O teste simultâneo fornece alguma proteção contra o problema de múltiplas comparações sem ter que seguir a rota Bonferroni, que perde energia. Infelizmente, minha interpretação do que você denuncia é que você tem uma descoberta nula.

Várias coisas atenuam essa interpretação. Primeiro, com apenas 43 dados, você quase certamente não tem muito poder. É bem possível que exista um efeito real, mas você simplesmente não pode resolvê-lo sem mais dados. Segundo, como @andrea e @Dimitriy, preocupo-me com a adequação de tratar variáveis categóricas de quatro níveis como numéricas. Isso pode não ser apropriado e pode ter vários efeitos, incluindo a diminuição da capacidade de detectar o que realmente está lá. Por fim, não tenho certeza de que o teste de significância seja tão importante quanto as pessoas acreditam. Um de é meio baixo; Existe realmente algo acontecendo lá? talvez! quem sabe? - não existe uma "linha brilhante" em 0,05 que demarque efeitos reais da mera aparência. $p$ $.11$

- Reinstate Monica
fonte

24

Eu gostaria de sugerir que esse fenômeno (de um teste geral não significativo, apesar de uma variável individual significativa) possa ser entendido como uma espécie de "efeito mascarado" agregado e que, embora concebivelmente possa surgir de variáveis explicativas multicolineares, ele não precisa isso mesmo. Também não é devido a vários ajustes de comparação. Assim, esta resposta está adicionando algumas qualificações às respostas que já apareceram, o que sugere, pelo contrário, que a multicolinearidade ou as comparações múltiplas devem ser encaradas como os culpados.

Para estabelecer a plausibilidade dessas asserções, vamos gerar uma coleção de variáveis perfeitamente ortogonais - tão não colinear quanto possível - e uma variável dependente que seja explicitamente determinada exclusivamente pelo primeiro dos explicandos (mais uma boa quantidade de erro aleatório independente de tudo o mais). Em Risso pode ser feito (reprodutível, se quiser experiência) como

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Não é importante que as variáveis explicativas sejam binárias; o que importa é sua ortogonalidade, que podemos verificar para garantir que o código esteja funcionando conforme o esperado, o que pode ser feito inspecionando suas correlações. De fato, a matriz de correlação é interessante : os pequenos coeficientes sugerem ypouco a ver com qualquer uma das variáveis, exceto a primeira (que é por design) e os zeros fora da diagonal confirmam a ortogonalidade das variáveis explicativas:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Vamos executar uma série de regressões , usando apenas a primeira variável, depois as duas primeiras e assim por diante. Por questões de concisão e facilidade de comparação, em cada uma mostro apenas a linha da primeira variável e do teste F geral:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Veja como (a) a significância da primeira variável mal muda, (a ') a primeira variável permanece significativa (p <0,05), mesmo ao ajustar várias comparações ( por exemplo , aplique Bonferroni multiplicando o valor p nominal pelo número de variáveis explicativas), (b) o coeficiente da primeira variável mal muda, mas (c) a significância geral cresce exponencialmente, inflando rapidamente para um nível não significativo.

Interpreto isso como demonstrando que a inclusão de variáveis explicativas que são amplamente independentes da variável dependente pode "mascarar" o valor p geral da regressão. Quando as novas variáveis são ortogonais às existentes e à variável dependente, elas não alteram os valores de p individuais. (As pequenas mudanças vistas aqui são porque o erro aleatório adicionado yé, por acidente, ligeiramente correlacionado com todas as outras variáveis.) Uma lição a tirar disso é que a parcimônia é valiosa : o uso de poucas variáveis necessárias pode fortalecer a significância de os resultados.

Eu estou não dizer que esta é necessariamente acontecendo para o conjunto de dados na pergunta, sobre o qual foi divulgado pouco. Mas o conhecimento de que esse efeito de mascaramento pode acontecer deve informar nossa interpretação dos resultados, bem como nossas estratégias para seleção de variáveis e construção de modelos.

whuber
fonte

+1, concordo com esta análise. FWIW, esta é a explicação que eu estava sugerindo (talvez não esteja bem) na minha discussão sobre poder na minha resposta à outra pergunta . Tenho 1 pergunta sobre sua versão aqui, por que você usa 32 como a média do seu termo de erro? Isso é um erro de digitação ou é importante de alguma forma?

gung - Restabelece Monica

@gung Onde você vê 32? Se você estiver se referindo rnorm(2^p, sd=2), observe que o primeiro argumento é o número de termos, não a média. A média por padrão é zero e, portanto, não foi especificada explicitamente.

whuber

rnorm()

N (μ, σ)

$\mathcal N(\mu, \sigma)$

@gung Sou grato pela oportunidade de esclarecer o código e, portanto, editei a linha incorreta.

whuber

11

Você costuma fazer isso acontecer quando tem um alto grau de colinearidade entre suas variáveis explicativas. A ANOVA F é um teste conjunto de que todos os regressores são conjuntamente desinformativos. Quando seus Xs contêm informações semelhantes, o modelo não pode atribuir o poder explicativo a um regressor ou a outro, mas sua combinação pode explicar grande parte da variação na variável de resposta.

$x_{1}$ $y$

Dimitriy V. Masterov
fonte

Se a colinearidade for um problema, você terá erros padrão altos e talvez coeficientes implausivelmente grandes, talvez até com sinais errados. Para garantir que isso é o que está acontecendo, calcule os fatores de inflação de variação (VIFs) após sua regressão. Uma regra prática razoável é que a colinearidade é um problema se o VIF maior for maior que 10. Nesse caso, você realmente tem duas opções aqui. Uma é re-especificar o modelo para reduzir a dependência quase linear, descartando algumas de suas variáveis. O segundo é obter uma amostra maior e / ou melhor (menos homogênea).

Dimitriy V. Masterov 15/03/12

11

(+1) Essa explicação é boa, mas não é necessário atribuir o fenômeno à multicolinearidade: a principal distinção é entre informativo conjunto e informativo individual. A inclusão de regressores não correlacionados adicionais (que evitam qualquer multicolinearidade) diminui o primeiro, deixando o último inalterado.

whuber

Contradição de significância na regressão linear: teste t significativo para um coeficiente versus estatística F não significativa

Respostas: