Por que o modelo muda ao usar o relevel?

8

Ao calcular modelos de regressão com R, uso regularmente a função relevel para fazer com que meu modelo me dê resultados para o outro nível. Percebi que, às vezes, mas não com frequência, isso mudou o modelo no sentido de que os níveis de outros fatores que eram significativos antes da relevância não são mais. Isso é inerente à relevância ou é excepcional e talvez devido a algum problema com meus dados? Isso mostra que meus dados provavelmente não atendem a um dos pré-requisitos de modelos lineares?

Relacionado a isso, tudo bem se eu usar o relevel, recalcular meu modelo e relatar valores de significância de ambos os modelos no meu artigo? Se a significância difere entre os dois modelos para um determinado fator, suponho que devo seguir um que seja menos otimista?

Suponho que minha pergunta trai que não conheço o suficiente sobre lm para entender a necessidade de um nível básico. Eu pensei que tinha entendido muito bem;) De alguma forma, nenhuma das apresentações que li explicava esse ponto, ou eu estava muito boba para entender. Portanto, se alguém pudesse me direcionar para um site onde o ponto de ter níveis básicos em lm é explicado ou explicado por conta própria, isso seria ótimo também!

Edit: Aqui está um exemplo mínimo:

library(datasets)
sprays<-OrchardSprays
model<-lm(decrease~treatment+rowpos+colpos,data=sprays)
summary(model)

Parte do resumo diz

treatmentC    20.625      9.731   2.120  0.03866 *

Portanto, se o tratamento == C, isso tem influência positiva significativa na 'diminuição'. Agora eu relevante 'tratamento' para B para descobrir que influência o tratamento == A tem:

sprays$treatment<-relevel(sprays$treatment,"B")
summary(model)

E agora o tratamento == C não é significativo neste novo modelo:

treatmentC    17.625      9.731   1.811  0.07567 .

Desculpe por postar no lugar errado! Posso mover minha pergunta para stats statexchange ou devo abrir uma nova lá?

Robert
fonte
2
Bem-vindo ao SO. Você acha que pode fazer um pequeno exemplo reproduzível que ilustra isso?
Andrie
4
Parece que você realmente não sabe o que o modelo está se encaixando e como interpretar os parâmetros em seu modelo. Provavelmente, isso é mais apropriado para o site de estatísticas stackexchange.
Dason
2
Ambos os comentários anteriores estão no alvo. Algo tão simples como d <- data.frame(y=runif(300),f=factor(rep(LETTERS[1:3],each=100)); lm(y~f,data=d)lhe dará um começo, embora, é claro, não haja mudanças significativas nesse caso (embora as estimativas de parâmetros e os valores-p certamente mudem quando você for relevante).
Ben Bolker
Talvez você queira ver as páginas 74-75 deste livro springer.com/economics/econometrics/book/978-0-387-77316-2 . Este é claramente um problema econométrico referente a variáveis ​​dummy. Alterar sua linha de base não altera o valor esperado da sua estimativa, mas altera a estimativa do parâmetro. Qualquer livro básico de econometria o ajudará nessa questão.
2
... Isso realmente não é uma questão de "econometria", mas sim uma questão de parametrização de modelo que é uma questão em qualquer campo da estatística.
Dason

Respostas:

7

Suponha que o fator conditionstenha níveis A,B,Ce você regride sua variável de resposta de acordo ycom as condições mod <- lm(y ~ conditions). Agora summary(mod)retorna a média do nível de referência de conditions(digamos A) e a diferença de médias entre condições Be Ae a diferença entre as condições Ce A(relatado como respectivamente (Intercept), conditions:Be conditions:C). Se você conditions <- relevel(conditions, ref = 'B')e reunir novamente o modelo linear, agora obterá a média de B, a diferença entre Ae B, e a diferença entre CeA. Naturalmente, os valores de p podem mudar. Isso não significa que há um problema com seus dados. Isso não significa que seus dados falhem necessariamente em uma suposição do modelo linear. O ajuste é o mesmo e você simplesmente alterou as informações impressas, porque alterou o nível de referência e está usando contrastes de tratamento. Você pode obter os mesmos testes de hipóteses lineares usando o original mod.

Quanto ao que relatar, em muitos campos, é habitual relatar se houve um efeito estatisticamente significativo conditions(usando a saída de anova(mod)) e relatar a saída completa da regressão em uma tabela (usando os níveis de referência desejados ) As normas sobre como e se deve relatar testes de Avs. B(por exemplo) variam de acordo com o campo. Dê uma olhada em bons papéis em seu campo.

bloqueado
fonte
Obrigado, isso praticamente responde à minha pergunta! Apenas para esclarecimento: você diz que é habitual relatar se os fatores foram significativos (saída da anova) e a saída completa da regressão, mas as normas para os testes podem variar. Mas o resultado completo da regressão (com resumo) inclui principalmente esses testes (além da interceptação), não é?
Sim, mas isso não significa necessariamente que você deve denunciá-los. Testes de significância da intercepção, em particular, são mais frequentemente do que não sem sentido ...
Ben Bolker
Estou confuso ... Se o resumo os relatar, suponho que devam ser úteis para alguma coisa? Além disso, a principal razão pela qual estou computando um modelo é que quero descobrir qual nível pode ser dito ter qual tipo de influência com um certo grau de certeza. Portanto, se eles tendem a ser "sem sentido", há poucas razões para eu fazer isso. Ou você recomendaria outro método para fazer isso?