Na verdade, estou revisando um manuscrito em que os autores comparam os modelos de regressão de 5-6 logit com a AIC. No entanto, alguns dos modelos têm termos de interação sem incluir os termos covariáveis individuais. Faz algum sentido fazer isso?
Por exemplo (não específico para modelos de logit):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
Eu sempre tive a impressão de que, se você tiver o termo de interação X1 * X2, também precisará de X1 + X2. Portanto, os modelos 1 e 2 seriam bons, mas os modelos 3-5 seriam problemáticos (mesmo que o AIC seja mais baixo). Isso está correto? É uma regra ou mais uma diretriz? Alguém tem uma boa referência que explica o raciocínio por trás disso? Eu só quero ter certeza de que não comunico mal nada importante na revisão.
Obrigado por qualquer pensamento, Dan
fonte
:
é para interações, como em A: B. E*
é para efeitos principais e interações, então A * B = A + B + A: B. Então, se (!) Os autores do artigo seguem essa notação, não acho que nenhum dos modelos esteja perdendo os efeitos principais?Respostas:
Na maioria das vezes, essa é uma má ideia - o principal motivo é que ele não torna o modelo invariável às mudanças de local. Por exemplo, suponha que você tenha um único resultado e dois preditores x i e z i e especificar o modelo:yEu xEu zi
Se você centralizar os preditores por seus meios, se tornaráxizi
Assim, você pode ver que os principais efeitos foram reintroduzidos no modelo.
Eu dei um argumento heurístico aqui, mas isso apresenta uma questão prática. Conforme observado em Faraway (2005) na página 114, uma alteração aditiva na escala altera a inferência do modelo quando os principais efeitos são deixados de fora do modelo, enquanto isso não ocorre quando os termos de ordem inferior são incluídos. Normalmente, é indesejável que coisas arbitrárias, como uma mudança de local, causem uma mudança fundamental na inferência estatística (e, portanto, nas conclusões de sua investigação), como pode acontecer quando você inclui termos ou interações polinomiais em um modelo sem os efeitos de ordem inferior.
Nota: Pode haver circunstâncias especiais em que você deseja incluir apenas a interação, se o tiver algum significado substantivo particular ou se você observar apenas o produto e não as variáveis individuais x i , z i . Mas, nesse caso, pode-se pensar no preditor a i = x i z i e prosseguir com o modeloxEuzEu xEu, zEu umaEu= xEuzEu
ao invés de pensar de como um termo de interação.umaEu
fonte
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
A mudança aditiva de preditores geralmente altera t de seus principais efeitos (termos de ordem inferior), mesmo em um modelo completo. É o ajuste geral (R ^ 2) que é preservado (mas não é preservado sob alteração aditiva em um modelo com alguns efeitos principais descartados). Era isso que você queria dizer?Até agora, todas as respostas parecem perder um ponto muito básico: a forma funcional que você escolher deve ser flexível o suficiente para capturar os recursos que são cientificamente relevantes. Os modelos 2-5 impõem coeficientes zero em alguns termos, sem justificativa científica. E mesmo se cientificamente justificado, o Modelo 1 permanece atraente porque você também pode testar os coeficientes zero em vez de impô-los.
A chave é entender o que as restrições significam. A advertência típica para evitar os modelos 3-5 é porque na maioria das aplicações as suposições que eles impõem são cientificamente implausíveis. O modelo 3 assume que X2 influencia apenas a inclinação dY / dX1, mas não o nível. O modelo 4 assume que X1 influencia apenas a inclinação dY / dX2, mas não o nível. E o Modelo 5 assume que nem X1 nem X2 afetam o nível, mas apenas dY / dX1 ou dY / dX2. Na maioria das aplicações, essas suposições não parecem razoáveis. O modelo 2 também impõe um coeficiente zero, mas ainda tem algum mérito. Dá a melhor aproximação linear aos dados, o que em muitos casos satisfaz o objetivo científico.
fonte
fonte
Como você está revisando um artigo, pode sugerir que os autores discutam a questão da hierarquia de modelos e justifiquem sua saída.
Aqui estão algumas referências:
Nelder JA. A seleção de termos nos modelos de superfície de resposta - quão forte é o princípio da fraca hereditariedade? O estatístico americano. 1998; 52: 315–8. http://www.jstor.org/pss/2685433 . Acessado em 10 de junho de 2010.
Peixoto JL. Seleção de variáveis hierárquicas em modelos de regressão polinomial. O estatístico americano. 1987; 41: 311–3. http://www.jstor.org/pss/2684752 . Acessado em 10 de junho de 2010.
Peixoto JL. Uma propriedade de modelos de regressão polinomial bem formulados. O estatístico americano. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Acessado em 10 de junho de 2010.
Eu costumo seguir a hierarquia, mas me afasto em algumas situações. Por exemplo, se você estiver testando o desgaste dos pneus em relação à quilometragem em várias velocidades diferentes, seu modelo poderá ser:
profundidade do piso = interceptação + quilometragem + quilometragem * velocidade
mas não faria sentido incluir um efeito principal da velocidade, porque o pneu não sabe qual será a velocidade a zero quilômetro.
(Por outro lado, você ainda pode querer testar um efeito de velocidade, pois isso pode indicar que os efeitos de "amaciamento" diferem em velocidades diferentes. Por outro lado, uma maneira ainda melhor de lidar com o amaciamento seria: obtenha dados em zero e com quilometragem muito baixa e, em seguida, teste a não linearidade. Observe que a remoção do termo de interceptação pode ser considerada um caso especial de violação da hierarquia.)
Também reiterarei o que alguém disse acima, porque é muito importante: os autores precisam garantir que eles saibam se o software está centralizando os dados. O modelo de pneu acima torna-se fisicamente sem sentido se o software substituir a quilometragem por (milhagem - média da milhagem).
Os mesmos tipos de coisas são relevantes nos estudos de estabilidade farmacêutica (mencionados tangencialmente em "Modelos de Estabilidade para Armazenamento Sequencial", Emil M. Friedman e Sam C. Shum, AAPS PharmSciTech, Vol. 12, Nº 1, março de 2011, DOI: 10.1208 / s12249-010-9558-x).
fonte
Eu tive um caso real que ilustra isso. Nos dados, uma das variáveis representadas
group
com 0 controle e 1 tratamento. O outro preditor representoutime period
com 0 antes do tratamento e 1 após o tratamento. A interação foi o principal parâmetro de interesse que mede o efeito do tratamento, a diferença após o tratamento no grupo de tratamento acima de qualquer efeito do tempo medido no grupo de controle. O principal efeito degroup
mediu a diferença nos 2 grupos antes de qualquer tratamento, para que pudesse ser facilmente 0 (em um experimento randomizado deveria ser 0, este não foi). O segundo efeito principal mede a diferença entre os períodos de antes e depois no grupo de controle onde não houve tratamento, portanto, também faz sentido que possa ser 0 enquanto o termo de interação for diferente de zero. Obviamente, isso depende de como as coisas foram codificadas e uma codificação diferente mudaria os significados e se a interação faria sentido ou não sem os principais efeitos. Portanto, faz sentido ajustar a interação sem os principais efeitos em casos específicos.fonte
Eu concordo com Peter. Eu acho que a regra é folclore. Por que poderíamos conceber uma situação em que duas variáveis afetariam o modelo apenas por causa de uma interação. Uma analogia na química é que dois produtos químicos são totalmente inertes por si mesmos, mas causam uma explosão quando misturados. Gentilezas matemáticas / estatísticas como invariância não têm nada a ver com um problema real com dados reais. Só acho que, quando há muitas variáveis a considerar, há muitos testes a serem realizados, se você observar todos os principais efeitos e a maioria, senão todas, as interações de primeira ordem. Também quase nunca examinamos as interações de segunda ordem, mesmo em pequenos experimentos com apenas algumas variáveis. O pensamento é que quanto maior a ordem de interação, menor a probabilidade de um efeito real. Então não Não olhe para as interações de primeira ou segunda ordem, se o efeito principal não estiver presente. Uma boa regra, talvez, mas segui-la religiosamente significa ignorar as exceções e seu problema pode ser uma exceção.
fonte
[tentando responder a uma parte da pergunta original que parece não ter sido descoberta na maioria das respostas: "a AIC, como critério de seleção de modelo, deve ser confiável?"]
AIC deve ser usada mais como orientação, do que como uma regra que deve ser tomada como evangelho.
A eficácia da AIC (ou BIC ou qualquer critério "simples" semelhante para a seleção de modelos) depende muito do algoritmo de aprendizado e do problema.
Pense desta maneira: o objetivo do termo complexidade (número de fatores) na fórmula da AIC é simples: evitar a seleção de modelos que se ajustam demais. Mas a simplicidade da AIC frequentemente falha em capturar a real complexidade do problema em si. É por isso que existem outras técnicas práticas para evitar ajustes excessivos: por exemplo, validação cruzada ou adição de um termo de regularização.
Quando uso o SGD online (descida gradiente estocástica) para fazer regressão linear em um conjunto de dados com um número muito grande de entradas, considero o AIC um péssimo preditor da qualidade do modelo, porque penaliza excessivamente modelos complexos com grande número de termos. Existem muitas situações da vida real em que cada termo tem um efeito minúsculo, mas juntas, um grande número delas fornece fortes evidências estatísticas de um resultado. Os critérios de seleção de modelos AIC e BIC rejeitariam esses modelos e prefeririam os mais simples, embora os mais complexos sejam superiores.
No final, é o erro de generalização (aproximadamente: desempenho fora da amostra) que conta. A AIC pode fornecer algumas dicas sobre a qualidade do modelo em algumas situações relativamente simples. Apenas tome cuidado e lembre-se de que a vida real é mais frequentemente do que não, mais complexa do que uma fórmula simples.
fonte