Posso ignorar coeficientes para níveis não significativos de fatores em um modelo linear?

15

Depois de procurar esclarecimentos sobre os coeficientes do modelo linear aqui , tenho uma pergunta de acompanhamento referente a não-significativo (alto valor de p) para coeficientes de níveis de fatores.

Exemplo: se meu modelo linear incluir um fator com 10 níveis e apenas 3 desses níveis tiverem valores significativos de p associados, ao usar o modelo para prever Y, posso optar por não incluir o termo do coeficiente se o sujeito cair em um dos o nível não-significativo?

Mais drasticamente, seria errado agrupar os 7 níveis não significativos em um nível e re-analisar?

Trees4theForest
fonte
2
Bem, você pode obter inferência tendenciosa fazendo isso - por exemplo, se você estiver formando intervalos de previsão, as probabilidades de cobertura provavelmente estarão erradas para indivíduos em qualquer um dos sete níveis insignificantes.
Macro
11
Você obteve boas respostas aqui, mas também pode estar interessado em saber por que é inadequado descartar fatores com altos valores de p. Vale ressaltar que isso é logicamente equivalente a um procedimento de seleção automática de modelo, mesmo que você esteja fazendo isso sozinho, em vez de o computador fazer isso por você. Ler esta pergunta e as respostas oferecidas pode ajudar a entender por que essas coisas são verdadeiras.
gung - Restabelece Monica
11
Este Q tem uma duplicata exata a partir de novembro de 2012: stats.stackexchange.com/questions/18745/… . Também há algumas informações instigantes.
Roland2
2
Essa é uma pergunta tão importante e, no entanto, não há resposta para apoiar o argumento com a teoria. Tal como está, são apenas opiniões. Nem o livro vinculado em uma das respostas (cuja conclusão difere das outras respostas) fornece referências. Como está, não confio em nenhum deles e, portanto, preferiria não fazer nada (ou seja, manter todas as categorias / fatores).
Luchonacho # 22/18

Respostas:

13

Se você estiver inserindo uma variável preditora com vários níveis, você inserirá a variável ou não, não poderá escolher níveis. Convém reestruturar os níveis de sua variável preditora para diminuir o número de níveis (se isso fizer sentido no contexto de sua análise.) No entanto, não tenho certeza se isso causaria algum tipo de invalidação estatística se você colapso dos níveis porque você vê que eles não são significativos.

pppα>.0001

Ellie
fonte
(Corrigido meu erro de digitar o valor p.) Bons pontos aqui. Portanto, o colapso dos níveis, desde que seja baseado em alguma razão lógica e do mundo real justificável no contexto do estudo (que também pode analisá-los ao longo da quebra de significância) é razoável, mas não apenas os agrupe arbitrariamente com base em sua significância . Entendi.
Trees4theForest
15

@ A resposta de Ellie é boa.

Se você estiver inserindo uma variável com vários níveis, precisará reter todos esses níveis em sua análise. A escolha e a escolha com base no nível de significância influenciarão seus resultados e farão coisas muito estranhas à sua inferência, mesmo que por algum milagre suas estimativas continuem as mesmas, pois você terá brechas nos seus efeitos estimados em diferentes níveis do variável.

Eu consideraria analisar suas estimativas para cada nível do preditor graficamente. Você está vendo uma tendência ao subir de nível ou é irregular?

De um modo geral, também sou contra a recodificação de variáveis ​​com base em testes estatísticos - ou com base puramente em momentos estatísticos. As divisões em sua variável devem ser baseadas em algo mais firme - pontos de corte logicamente significativos, interesse no campo em um ponto de transição específico etc.

Fomite
fonte
8

Expandindo as duas boas respostas que você já obteve, vejamos isso de maneira substantiva. Suponha que sua variável dependente seja (digamos) renda e sua variável independente seja (digamos) etnia, com níveis, por definições do censo (Branco, Preto / Afr.Am., Am. Indiano / Alasca Nativo, Asiático, Nativo do Havaí / Pac Islander, outro e multirracial). Digamos que você codifique fictício com White sendo a categoria de referência e você terá

Euncome=b0 0+b1 1BUMAUMA+b2UMAEuUMAN+b3UMAS+b4NHPEu+b5O+b6MR

Se você estiver fazendo este estudo na cidade de Nova York, provavelmente terá muito poucos nativos havaianos / das ilhas do Pacífico. Você pode optar por incluí-los (se houver) com os outros. No entanto, você não pode usar a equação completa e simplesmente não incluir esse coeficiente. Então a interceptação estará errada, e também quaisquer valores previstos para a renda.

Mas como você deve combinar categorias?

Como os outros disseram, tem que fazer sentido .

Peter Flom - Restabelece Monica
fonte
4

Para dar uma opinião diferente: por que não incluí-la como efeito aleatório? Isso deve penalizar esses níveis com suporte fraco e garantir que o tamanho do efeito seja mínimo. Dessa forma, você pode mantê-los todos sem se preocupar em obter previsões tolas.

E sim, isso é mais motivado pela visão bayesiana de efeitos aleatórios do que pela visão "amostra de todos os níveis possíveis" de efeitos aleatórios.

Shea Parkes
fonte
0

Eu também queria saber se eu poderia combinar categorias não significativas com a categoria de referência. As seguintes declarações no livro "Mineração de dados para Business Intelligence: conceitos, técnicas e aplicativos no Microsoft Office Excel® com XLMiner®, 2ª edição de Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensão Seção de redução) ( resultado de pesquisa do Google ) parecem apoiar a segunda frase da resposta de @ Ellie:

  • "Os modelos de regressão ajustados também podem ser usados ​​para combinar ainda mais categorias semelhantes: categorias que têm coeficientes que não são estatisticamente significativos (ou seja, têm um alto valor p) podem ser combinadas com a categoria de referência, porque sua distinção da categoria de referência parece não ter efeito significativo na variável de saída "
  • "As categorias que têm valores de coeficiente semelhantes (e o mesmo sinal) podem ser combinadas porque o efeito na variável de saída é semelhante"

No entanto, pretendo verificar com especialistas no assunto se a combinação das categorias faz sentido lógico (como está implícito nas respostas / comentários anteriores, por exemplo, @Fomite, @gung).

user1420372
fonte
Esta resposta é contradita pelas outras respostas aqui.
Kjetil b halvorsen