Por que incluir o termo de interação no modelo de regressão logística ajuda a avaliar a suposição de linearidade?

10

Em Descobrindo estatísticas usando o SPSS 4ª edição, por Andy Field, foi recomendável incluir o termo de interação entre a variável independente e sua variável de transformação de logaritmo natural correspondente para verificar a violação da suposição de linearidade. Qual é a teoria estatística por trás disso?xln(x)

Esta é uma citação do livro:

Essa suposição pode ser testada observando se o termo de interação entre o preditor e sua transformação logarítmica é significativo (Hosmer & Lemeshow, 1989).

Também descobri recentemente que essa transformação é chamada transformação Box-Tidwell.

tatami
fonte
2
Lembro-me desse livro dando conselhos duvidosos de outra pergunta aqui: stats.stackexchange.com/questions/157217/…. Isso inclui x ln (x) também me parece duvidoso.
Matthew Drury
4
tatami Pode muito bem haver uma boa razão para isso, mas o contexto provavelmente ajudará a localizá-lo mais rapidamente. Que base Field usou para sugerir que era uma boa ideia? Ele ofereceu alguma referência? Você pode citar o que o livro diz?
Glen_b -Reinstala Monica
11
Uma maneira melhor (com dados suficientes) pode ser usar um GAM logístico (modelo aditivo generalizado) e incluir um ajuste de spline de x.
Kjetil b halvorsen
@Glen_b Eu adicionei uma citação do livro de Andy Field
tatami
Novo para mim, mas parece fazer sentido para um tipo específico de não linearidade: stats.uwo.ca/faculty/braun/ss3859/notes/Chapter6/ch5notes.pdf
Scortchi - Reinstate Monica

Respostas:

18

Box e Tidwell (1962) [1] apresentaram uma abordagem geral para estimar transformações dos preditores individuais (IVs), e trabalham com o caso específico de estimar transformações de potência das variáveis ​​preditivas (incluindo essa potência 0, que - com escala apropriada - corresponde a receber registros como um caso limitante).

Nesse caso específico de transformações de poder, verifica-se que há uma conexão com a regressão em .Xjlog(Xj)

Portanto, se você tiver uma não-linearidade do tipo em que a relação verdadeira (condicional) entre e é linear em , ela poderá ser usada para verificar se há ou para estimar valores .YXjXjαjαj1α

Especificamente, ao regressar em e o coeficiente do segundo termo dividido pelo do primeiro é uma estimativa aproximada de . (Essa estimativa pode ser iterada para convergência.)XjXjlog(Xj)αj1

Se esse estimado for próximo de 1, haverá pouca indicação de necessidade de transformação.αj

Observe que, como os dois termos do produto são funções de , este é simplesmente um transformado, de modo que eu não chamaria isso de interação; é apenas um preditor transformado. (De fato, mesmo que eu estivesse de alguma forma tentado a fazê-lo, como não é incluído como um preditor, ainda assim não tenderia a descrever esse segundo termo como uma interação.)Xjlog(Xj)XjXjlog(Xj)

[1]: Box, GEP e Tidwell, PW (1962), "Transformação das variáveis ​​independentes". Technometrics 4 , 531-550.

Glen_b -Reinstate Monica
fonte
11
Talvez isso tenha algum valor limitado, especialmente se alguém tiver motivos para esperar a não linearidade dessa forma específica de poder ou se for forçado a usar software que não oferece alternativas mais modernas, como o uso de um GAM (modelo aditivo generalizado), estimando efetivamente a não linearidade diretamente com splines. Ou, se o número de observações for baixo, para permitir o uso de splines.
precisa saber é o seguinte