Escolhendo entre transformações na regressão logística

8

Na regressão linear, as transformações das variáveis ​​explicativas são feitas para ter correlação máxima com a variável dependente.

Qual é a melhor medida de escolha entre várias transformações na regressão logística, pois a variável dependente é binária e não contínua?

O objetivo final é maximizar a sustentação (potência preditiva) do modelo.

Jatin
fonte

Respostas:

14

O critério de otimização usado pela regressão logística (e muitos outros métodos) é a função de probabilidade. É usado para estimar incluindo múltiplo representando um para obter ajustes polinomiais quadráticos, cúbicos e por partes (spline). Também pode ser usado para escolher entre transformações concorrentes de mas o ato de escolher não será refletido na matriz de informações, portanto a variação resultante deβ X X X βββXXXβ^será muito pequeno, fazendo com que os intervalos de confiança não tenham a probabilidade de cobertura declarada. Se você fizer da estimativa de transformação um objetivo explícito do ajuste do modelo (e as splines de regressão são excelentes maneiras de fazer isso), preservará todos os aspectos da inferência estatística. Dependendo do tamanho da amostra, uma ranhura cúbica restrita (linear em ambas as caudas) com 4 nós, exigindo 3 parâmetros, pode ser uma boa opção.

Frank Harrell
fonte
Obrigado pela resposta. A seguir, minhas preocupações: 1) Uma transformação escolhida univariadamente será a mesma se eu escolher uma multivariada? Para mim, não há razão para acreditar que os escolhidos univariadamente serão os melhores em combinação com outras variáveis ​​transformadas. 2) Não prefiro usar splines devido à possibilidade de ajuste excessivo e desempenho ruim nos conjuntos de validação. Eu estava pensando em usar a transformação Box-Cox para variáveis ​​explicativas e encontrar a melhor transformação com o valor ideal de . Isso faz sentido? Alguma ideia? λ
Jatin
Não, isso não ressoa. Box-Cox é usado para contínuo e univariado , e muitos usuários de Box-Cox não sabem penalizar a incerteza em nem que Box-Cox faz uma forte suposição sobre a origem da medição (zero). As splines não se ajustam demais ao ter muitos preditores, e você pode controlar a quantidade de ajustes com o número de nós e com o encolhimento (penalização; consulte a função R para penalização quadrática). Como você disse, é melhor estimar as transformações de maneira ajustada, e não univariada. \ lambaY\lambarms lrm
25713 Frank Harrell
6
  1. Não, em modelos lineares a transformação não é (ou não deveria) ser feita para ter correlação máxima com a variável dependente. Isso deve ser feito para: a) atender às premissas do modelo sobre os resíduos; b) possuir uma variável explicativa mais sensata; isto é, aquele que faz sentido, substantivamente. Como aponta @Andy, isso pode não ser suficiente. Mas, nesse caso, eu procuraria um método alternativo de regressão (veja abaixo) em vez de sofrer uma transformação estranha. Por exemplo, um modelo como será uma bagunça para explicar.Y=b0+b1x1.21+b2x2.73

  2. Na regressão logística (pelo menos na logística dicotômica), existem menos suposições (e nenhuma sobre os resíduos, até onde eu saiba), então apenas b) se aplica.

Mesmo para modelos lineares, eu preferiria usar b). E então, se as suposições não forem atendidas, usando alguma outra forma de regressão (pode ser uma regressão robusta, pode ser um modelo de spline, pode ser polinômio).

Peter Flom
fonte
A afirmação have a more sensible explanatory variableé bastante ambígua e deve ser ampliada. Eu normalmente consideraria uma transformação que permite uma interpretação mais fácil dos coeficientes de regressão, mas obviamente isso não é suficiente por si só (para OLS ou regressão logística).
Andy W
Como eu disse no meu post, o poder preditivo é a principal preocupação. Ter variáveis ​​explicativas sensatas é desejável, mas não prioritário. Portanto, se me fornece uma melhor sustentação, então é aceitável neste estágio. A questão é como escolher o melhor conjunto de transformações para dar a sustentação máxima. Y=b0+b1x1.21+b2x2.73
Jatin
3

Com a modelagem linear generalizada, a medida matemática minimizada é chamada de "desvio" (-2 * log-verossimilhança). Existem vários tipos de resíduos que podem ser desenvolvidos. Os "resíduos de desvio" são os termos individuais em uma expressão modestamente complexa. Eu acho que isso é mais compreensível quando aplicado a variáveis ​​categóricas. Para uma variável categórica usando regressão logística, essas são apenas as diferenças entre as chances de log (modelo) e as chances de log (dados), mas para variáveis ​​contínuas elas são um pouco mais complexas. Os resíduos de desvio são os que são minimizados no processo iterativo. Veja esta descrição no site da UCLA para obter alguns bons gráficos de resíduos de desvio.

Parece-me que a análise do "aumento" é feita na escala de probabilidades, e não na escala de probabilidades logarítmicas ou de probabilidades ou probabilidades. Vejo que Frank Harrell ofereceu alguns conselhos e qualquer disputa percebida entre Frank e eu deveria ser resolvida pela ponderação maciça da opinião de Frank. (Meu conselho seria comprar o livro RMS de Frank.) Estou surpreso que ele não tenha oferecido conselhos para considerar métodos penalizados e que não emitiu uma advertência contra o excesso de ajuste. Eu pensaria que escolher uma transformação simplesmente porque maximizava a "sustentação" seria semelhante à escolha de modelos que maximizassem a "precisão". Eu sei que ele não endossa essa estratégia.

DWin
fonte