Alguém pode fornecer uma lista clara de diferenças entre regressão log-linear e regressão logística? Entendo que o primeiro é um modelo de regressão linear simples, mas não estou claro quando cada um deve ser usado.
fonte
Alguém pode fornecer uma lista clara de diferenças entre regressão log-linear e regressão logística? Entendo que o primeiro é um modelo de regressão linear simples, mas não estou claro quando cada um deve ser usado.
O nome é um pouco impróprio. Os modelos log-lineares eram tradicionalmente usados para a análise de dados em formato de tabela de contingência. Enquanto "dados de contagem" não precisam necessariamente seguir uma distribuição de Poisson, o modelo log-linear é na verdade apenas um modelo de regressão de Poisson. Daí o nome "log" (os modelos de regressão de Poisson contêm uma função de link "log").
Uma "variável de resultado transformada em log" em um modelo de regressão linear não é um modelo log-linear (nem uma variável de resultado exponenciada, como sugere "log-linear"). Os modelos log-lineares e as regressões logísticas são exemplos de modelos lineares generalizados , nos quais a relação entre um preditor linear (como log-odds ou log-rates) é linear nas variáveis do modelo. Eles não são "modelos de regressão linear simples" (ou modelos usando o formato usual ).
Apesar de tudo isso, é possível obter inferência equivalente nas associações entre variáveis categóricas usando regressão logística e regressão de poisson. É apenas que, no modelo de Poisson, as variáveis de resultado são tratadas como covariáveis. Curiosamente, você pode configurar alguns modelos que emprestam informações entre grupos de maneira muito semelhante a um modelo de chances proporcionais, mas isso não é bem entendido e raramente usado.
Exemplos de obtenção de inferência equivalente em modelos de regressão logística e de poisson usando R ilustrado abaixo:
y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)
## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)
## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)
Interessante, a falta de associação entre e significa o odds ratio é de 1 no modelo de regressão logística e, do mesmo modo, o termo? 0 interacção no modelo loglinear. Dá uma idéia de como medimos a independência condicional nos dados da tabela de contingência.
Acho que não chamaria nenhum deles de "modelo de regressão linear simples". Embora seja possível usar as transformações de log ou de logit como a função de link para vários modelos diferentes, geralmente são entendidos como referência a modelos específicos. Por exemplo, "regressão logística" é entendido como um modelo linear generalizado (GLiM) para situações em que a variável de resposta é distribuída como um binomial . Além disso, "regressão log-linear" é geralmente entendida como um Poisson GLiM aplicado a tabelas de contingência de múltiplas vias. Em outras palavras, além do fato de serem ambos modelos de regressão / GLiMs, não os vejo necessariamente sendo muito semelhantes (existem algumas conexões entre eles, como o @AdamO aponta, mas os usos típicos são bastante distintos). A maior diferença seria que a regressão logística assume que a resposta é distribuída como binomial e a regressão log-linear assume que a resposta é distribuída como Poisson . De fato, a regressão log-linear é bastante diferente da maioria dos modelos de regressão, pois a variável resposta não é realmente uma de suas variáveis (no sentido usual), mas o conjunto de contagens de frequência associadas às combinações de suas variáveis. na tabela de contingência de várias vias.
fonte
Para esclarecer, uma regressão logística "binária" tem uma variável dependente com dois resultados. Meu entendimento é que também há a opção de usar uma regressão logística "multinomial" se sua variável dependente de resultado tiver mais de 2 categorias. Veja aqui .
fonte