Digamos que estou construindo um modelo de regressão logística em que a variável dependente é binária e pode assumir os valores ou . Seja as variáveis independentes - existem variáveis independentes. Digamos que para a ésima variável independente, a análise bivariada mostra uma tendência em forma de U - ou seja, se eu agrupar em posições cada uma contendo um número aproximadamente igual de observações e calcular a 'taxa ruim' para cada posição - # observações em que y = 0 / total de observações em cada caixa - então recebo uma curva em U.1 x 1 , x 2 , . . . , x m m k x k 20
Minhas perguntas são:
- Posso usar diretamente como entrada ao estimar os parâmetros beta? Há alguma suposição estatística violada que possa causar erro significativo na estimativa dos parâmetros?
- É necessário 'linearizar' essa variável por meio de uma transformação (log, quadrado, produto consigo mesmo, etc.)?
regression
estimation
logistic
sas
Mozan Sykol
fonte
fonte
Respostas:
Você gostaria de usar uma formulação flexível que capturasse a não linearidade automaticamente, por exemplo, alguma versão de um modelo aditivo generalizado . A escolha de um homem pobre é um polinômio , , ..., , mas esses polinômios produzem oscilações terríveis no final do intervalo de suas respectivas variáveis. Uma formulação muito melhor seria usar splines B (cúbicos) (veja uma nota de introdução aleatória da primeira página do Google aqui e um bom livro aqui ). B-splines são uma sequência de carrocerias locais:x 2 k x p k kxk x2k xpkk
http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg
A altura dos corpos é determinada a partir da sua regressão (linear, logística, outros GLM), pois a função que você está ajustando é simplesmente
para a forma funcional especificada da sua corcunda . De longe, a versão mais popular é um spline cúbico suave em forma de sino:B ( ⋅ )
No lado da implementação, tudo o que você precisa fazer é configurar 3-5-10 - qualquer número de nós seria razoável para seu aplicativo e criar as correspondentes 3-5-10 - quaisquer variáveis no conjunto de dados com os valores de . Normalmente, é escolhida uma grade simples de valores, com tendo o dobro do tamanho da malha da grade, de modo que, em cada ponto, haja dois splines B sobrepostos, como no gráfico acima.xk B ( x - xkhk) hk
fonte
Assim como a regressão linear, é necessário que a regressão logística e os modelos lineares mais generalizados sejam lineares nos parâmetros, mas não necessariamente nas covariáveis. Termos polinomiais como um quadrático que Macro sugere podem ser usados. Este é um mal-entendido comum do termo linear em modelos lineares generalizados. Modelos não lineares são modelos não lineares nos parâmetros. Se o modelo é linear nos parâmetros e contém termos de ruído aditivo que são IID, o modelo é linear mesmo se houver covariáveis como X log X ou exp (X). Enquanto eu leio a pergunta, parece que ela foi editada. Minha resposta específica seria sim para 1 e não necessário para 2.2
fonte
Outra alternativa viável que a oficina de modelagem pela qual trabalho rotineiramente emprega é restringir as variáveis independentes contínuas e substituir a "taxa ruim". Isso força um relacionamento linear.
fonte
disco
pacote. Criei meu próprio algoritmo que divide recursivamente uma variável contínua com base no valor da informação. Coloquei-o em um pacote R aqui: github.com/Zelazny7/binnr (trabalho em andamento!). Eu também substituiria o peso da evidência em vez da média. Quando combinado com a regressão do LASSO, os resultados são fantásticos!binnr
algoritmo com os CRAN'ssmbinning
?