Regressão logística versus qui-quadrado em tabelas de contingência 2x2 e Ix2 (fator único - resposta binária)?

10

Estou tentando entender o uso da regressão logística nas tabelas de contingência 2x2 e ix2. Por exemplo, usando isso como um exemplo

insira a descrição da imagem aqui

Qual é a diferença entre usar o teste qui-quadrado e usar regressão logística? Que tal uma tabela com vários fatores nominais (tabela Ix2) como esta:

insira a descrição da imagem aqui

Existe uma pergunta semelhante aqui - mas a resposta é principalmente que o qui-quadrado pode lidar com tabelas mxn, mas minha pergunta é o que é específico para alquilo quando há um resultado binário e um único fator nominal. (O encadeamento vinculado também se refere a esse encadeamento , mas isso diz respeito a variáveis ​​/ fatores múltiplos).

Se é apenas um único fator (ou seja, não é necessário controlar outras variáveis) com uma resposta binária, qual é a diferença de objetivo de fazer regressão logística?

L Xandor
fonte
+1 para a pergunta, mas você precisa facilitar a cópia e a colagem de dados para trabalhar com ela.
Antoni Parellada
2
Consulte Por que meus valores p diferem entre a saída da regressão logística, o teste do qui-quadrado e o intervalo de confiança para o OR? . O teste qui-quadrado de Pearson para associação é apenas o teste de pontuação para a hipótese nula de que todas as inclinações são zero. O teste da razão de verossimilhança correspondente é assintoticamente equivalente. Como o @Kodiologist diz, os usos aos quais a regressão logística pode ser aplicada são mais amplos do que testar que todas as inclinações são zero.
Scortchi - Reinstate Monica

Respostas:

12

Por fim, são maçãs e laranjas.

A regressão logística é uma maneira de modelar uma variável nominal como um resultado probabilístico de uma ou mais outras variáveis. O ajuste de um modelo de regressão logística pode ser seguido com o teste de se os coeficientes do modelo são significativamente diferentes de 0, calculando intervalos de confiança para os coeficientes ou examinando até que ponto o modelo pode prever novas observações.

O teste do χ² de independência é um teste de significância específico que testa a hipótese nula de que duas variáveis ​​nominais são independentes.

Se você deve usar regressão logística ou um teste de χ² depende da pergunta que você deseja responder. Por exemplo, um teste de χ² pode verificar se não é razoável acreditar que o partido político registrado de uma pessoa é independente de sua raça, enquanto a regressão logística pode calcular a probabilidade de uma pessoa com uma determinada raça, idade e sexo pertencer a cada partido político .

Kodiologist
fonte
Obrigado. Você poderia me dar um exemplo dos diferentes tipos de perguntas que você pode responder com os diferentes métodos? Existem recursos específicos que você pode recomendar para entender as diferentes perguntas que podem ser respondidas com os dois métodos?
LXandor 21/10
Adicionei exemplos à minha resposta. Em relação à sua segunda pergunta, a Wikipedia é um lugar decente para começar. Além disso, a maioria dos livros introdutórios de estatística aplicada menciona o teste do χ² de independência e a regressão logística.
Kodiologist
Obrigado. Ainda não estou claro qual é a diferença no caso específico de uma tabela de contenção de 2x2? o qui quadrado verificaria se o resultado é independente das variações do fator, mas o que a regressão logística faz aqui? Entendo que o LR é útil para fazer previsões com base em uma série de fatores, mas quando se trata do 2x2 simples, não tenho certeza qual é a diferença (mas é claramente usada) ... você (ou alguém) pode usar o 2x2 tabela de estresse / refluxo no post original como um exemplo concreto de como eles seriam usados ​​de maneira diferente? É o caso de fator único em que estou mais interessado #
L Xandor 22/10/2015
ou o partido político / de corrida funciona tão bem quanto um exemplo, mas quando você usa a regressão logística, você está usando vários fatores, e eu posso ver como é útil lá ... mas o que eu especificamente tenho dificuldade em entender é por que use LR (ou como é diferente) no caso de fator único. Se os dois métodos são usados ​​para examinar a relação entre raça e partido político, qual é a diferença entre o quadrado do chi e a regressão logística?
LXandor
No caso do exemplo de estresse e refluxo, você pode usar a regressão logística para testar se o estresse afeta significativamente a probabilidade de refluxo ou calcular um intervalo de confiança para a razão de chances que expressa esse efeito. Uma maneira pela qual isso é conceitualmente diferente de um teste de χ² é que um de estresse ou refluxo é interpretado como a variável dependente. Mas, em qualquer caso, a regressão logística pode ser considerada um exagero para uma tabela de contingência 2 por 2.
Kodiologist