Regressão log-linear vs. regressão logística

21

Alguém pode fornecer uma lista clara de diferenças entre regressão log-linear e regressão logística? Entendo que o primeiro é um modelo de regressão linear simples, mas não estou claro quando cada um deve ser usado.

user38133
fonte

Respostas:

19

O nome é um pouco impróprio. Os modelos log-lineares eram tradicionalmente usados ​​para a análise de dados em formato de tabela de contingência. Enquanto "dados de contagem" não precisam necessariamente seguir uma distribuição de Poisson, o modelo log-linear é na verdade apenas um modelo de regressão de Poisson. Daí o nome "log" (os modelos de regressão de Poisson contêm uma função de link "log").

Uma "variável de resultado transformada em log" em um modelo de regressão linear não é um modelo log-linear (nem uma variável de resultado exponenciada, como sugere "log-linear"). Os modelos log-lineares e as regressões logísticas são exemplos de modelos lineares generalizados , nos quais a relação entre um preditor linear (como log-odds ou log-rates) é linear nas variáveis ​​do modelo. Eles não são "modelos de regressão linear simples" (ou modelos usando o formato usual ).E[Y|X]=uma+bX

Apesar de tudo isso, é possível obter inferência equivalente nas associações entre variáveis ​​categóricas usando regressão logística e regressão de poisson. É apenas que, no modelo de Poisson, as variáveis ​​de resultado são tratadas como covariáveis. Curiosamente, você pode configurar alguns modelos que emprestam informações entre grupos de maneira muito semelhante a um modelo de chances proporcionais, mas isso não é bem entendido e raramente usado.

Exemplos de obtenção de inferência equivalente em modelos de regressão logística e de poisson usando R ilustrado abaixo:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Interessante, a falta de associação entre e significa o odds ratio é de 1 no modelo de regressão logística e, do mesmo modo, o termo? 0 interacção no modelo loglinear. Dá uma idéia de como medimos a independência condicional nos dados da tabela de contingência.yx

AdamO
fonte
Novamente, isso provavelmente mostra minha inexperiência, mas você poderia fornecer uma definição para tabelas de contingência? Também pode ajudar outras pessoas que se deparam com essa questão.
user38133
As tabelas de contingência são (geralmente) tabelas bidimensionais que enumeram todas as respostas possíveis de duas variáveis ​​e mostram a frequência das observações nas células. Por exemplo, você pode ter uma tabela de contingência 2 por 2 mostrando o status de fumantes (nunca versus atual) e câncer (pulmão ca versus sem câncer) que você usaria para estimar a associação entre tabagismo e risco de câncer.
AdamO
15

Acho que não chamaria nenhum deles de "modelo de regressão linear simples". Embora seja possível usar as transformações de log ou de logit como a função de link para vários modelos diferentes, geralmente são entendidos como referência a modelos específicos. Por exemplo, "regressão logística" é entendido como um modelo linear generalizado (GLiM) para situações em que a variável de resposta é distribuída como um binomial . Além disso, "regressão log-linear" é geralmente entendida como um Poisson GLiM aplicado a tabelas de contingência de múltiplas vias. Em outras palavras, além do fato de serem ambos modelos de regressão / GLiMs, não os vejo necessariamente sendo muito semelhantes (existem algumas conexões entre eles, como o @AdamO aponta, mas os usos típicos são bastante distintos). A maior diferença seria que a regressão logística assume que a resposta é distribuída como binomial e a regressão log-linear assume que a resposta é distribuída como Poisson . De fato, a regressão log-linear é bastante diferente da maioria dos modelos de regressão, pois a variável resposta não é realmente uma de suas variáveis ​​(no sentido usual), mas o conjunto de contagens de frequência associadas às combinações de suas variáveis. na tabela de contingência de várias vias.

- Reinstate Monica
fonte
Obrigado! Acho que minha pergunta natural de acompanhamento, que provavelmente mostra minha falta de experiência, é sobre como determinar qual é a distribuição certa para modelar um determinado problema. Acho que vou precisar ler um pouco mais para ter certeza de que sempre posso escolher corretamente.
user38133
2
{0 0, 1}
0

Para esclarecer, uma regressão logística "binária" tem uma variável dependente com dois resultados. Meu entendimento é que também há a opção de usar uma regressão logística "multinomial" se sua variável dependente de resultado tiver mais de 2 categorias. Veja aqui .

M. Phipps
fonte