Regressão logística ou teste T?

17

Um grupo de pessoas responde a uma pergunta. A resposta pode ser "sim" ou "não". O pesquisador deseja saber se a idade está associada ao tipo de resposta.

A associação foi avaliada através de uma regressão logística em que a idade é a variável explicativa e o tipo de resposta (sim, não) é a variável dependente. Foi abordada separadamente, calculando a idade média dos grupos que responderam "sim" e "não", respectivamente, e realizando um teste T para comparar médias.

Ambos os testes foram realizados seguindo o conselho de pessoas diferentes, e nenhum deles tem certeza de qual é o caminho certo a seguir. Em vista da questão de pesquisa, qual seria o melhor teste?

Para o teste de hipóteses, os valores de p não foram significativos (regressão) e significativos (teste T). A amostra é inferior a 20 casos.

Gwen
fonte
2
Não sei se isso é a sua verdadeira pergunta. Você já executou as duas análises sobre as quais está perguntando. Suponho que o que você realmente deseja saber é algo sobre comparações ou relações entre esses testes, por exemplo, o que é melhor. Edite sua pergunta para corrigir isso.
John
Ambos os testes foram realizados seguindo o conselho de pessoas diferentes, e nenhum deles tem certeza se esse é o caminho certo a seguir. Em vista das perguntas da pesquisa (a idade está associada ao tipo de resposta?), Qual seria o melhor teste, a regressão logística do tipo de resposta na idade ou um teste T comparando a idade média das pessoas que responderam "sim" com a média idade das pessoas que responderam "não"?
Gwen

Respostas:

19

Ambos os testes modelam implicitamente a relação idade-resposta, mas o fazem de maneiras diferentes. Qual escolher depende de como você escolhe modelar esse relacionamento. Sua escolha deve depender de uma teoria subjacente, se houver uma; sobre que tipo de informação você deseja extrair dos resultados; e sobre como a amostra é selecionada. Esta resposta discute esses três aspectos em ordem.


Descreverei o teste t e a regressão logística usando uma linguagem que supõe que você esteja estudando uma população bem definida de pessoas e deseje fazer inferências da amostra para essa população.

Para apoiar qualquer tipo de inferência estatística, devemos assumir que a amostra é aleatória.

  • Um teste t assume que as pessoas na amostra que respondem "não" são uma amostra aleatória simples de todos os não respondentes da população e que as pessoas na amostra que respondem "sim" são uma amostra aleatória simples de todos os que responderam sim na população.

    Um teste t faz suposições técnicas adicionais sobre as distribuições das idades em cada um dos dois grupos da população. Existem várias versões do teste t para lidar com as possibilidades prováveis.

  • A regressão logística assume que todas as pessoas de qualquer idade são uma amostra aleatória simples das pessoas dessa idade na população. Os grupos etários separados podem exibir taxas diferentes de respostas "sim". Essas taxas, quando expressas como probabilidades logarítmicas (em vez de proporções retas), são consideradas linearmente relacionadas à idade (ou a algumas funções determinadas da idade).

    A regressão logística é facilmente estendida para acomodar relações não lineares entre idade e resposta. Essa extensão pode ser usada para avaliar a plausibilidade da suposição linear inicial. É praticável com grandes conjuntos de dados, que fornecem detalhes suficientes para exibir não linearidades, mas é improvável que seja muito útil com pequenos conjuntos de dados. Uma regra prática comum - que os modelos de regressão devem ter dez vezes mais observações que os parâmetros - sugere que são necessárias substancialmente mais de 20 observações para detectar a não linearidade (que precisa de um terceiro parâmetro além da interceptação e inclinação de uma função linear )

Um teste t detecta se as idades médias diferem entre respondentes não e sim na população. Uma regressão logística estima como a taxa de resposta varia de acordo com a idade. Como tal, é mais flexível e capaz de fornecer informações mais detalhadas do que o teste t. Por outro lado, tende a ser menos poderoso que o teste t com o objetivo básico de detectar uma diferença entre as idades médias dos grupos.

É possível que o par de testes exiba todas as quatro combinações de significância e não significância. Dois deles são problemáticos:

  • O teste t não é significativo, mas a regressão logística é. Quando as suposições de ambos os testes são plausíveis, esse resultado é praticamente impossível, porque o teste t não está tentando detectar uma relação tão específica como a regressão logística. No entanto, quando esse relacionamento é suficientemente não linear para fazer com que os indivíduos mais velhos e mais jovens compartilhem uma opinião e os indivíduos de meia idade com outra, a extensão da regressão logística para relacionamentos não lineares pode detectar e quantificar essa situação, que nenhum teste t poderia detectar .

  • O teste t é significativo, mas a regressão logística não é, como na pergunta. Isso geralmente acontece, especialmente quando há um grupo de respondentes mais jovens, um grupo de respondentes mais velhos e poucas pessoas no meio. Isso pode criar uma grande separação entre as taxas de resposta dos respondentes não e sim. É facilmente detectado pelo teste t. No entanto, a regressão logística teria relativamente poucas informações detalhadas sobre como a taxa de resposta realmente muda com a idade ou teria informações inconclusivas: o caso de "separação completa", em que todos os idosos respondem de uma maneira e todos os jovens de outra maneira-- mas, nesse caso, os dois testes normalmente teriam valores p muito baixos.

Observe que o design experimental pode invalidar algumas das suposições do teste. Por exemplo, se você selecionou pessoas de acordo com a idade em um design estratificado, a suposição do teste t (de que cada grupo reflete uma amostra aleatória simples de idades) se torna questionável. Esse projeto sugeriria confiar na regressão logística. Se, em vez disso, você teve dois grupos, um dos que não responderam e um dos que responderam sim, e selecionados aleatoriamente dentre esses para determinar sua idade, as suposições amostrais da regressão logística são duvidosas enquanto as do teste t se mantêm. Esse design sugere o uso de alguma forma de teste t.

(O segundo design pode parecer tolo aqui, mas em circunstâncias em que "idade" é substituída por alguma característica difícil, dispendiosa ou demorada para medir, pode ser atraente.)

whuber
fonte
A maioria das preocupações de não linearidade e separação não serão aliviadas usando um spline na variável idade? A esse respeito, peço desculpas, mas não vejo por que o design "agrupado" invalidaria as descobertas da regressão logística. Certamente, a suposição de amostra aleatória se foi, mas nos importamos porque fazemos essa escolha de design? Você está aludindo ao viés de seleção? (O design que você descreve parece-me um estudo de controle de caso, mas eu posso estar errado ...) (+1 obviamente)
usεr11852 diz Reinstate Monic
@ usεr11852 Obrigado por seus comentários. Reescrevi algumas passagens para esclarecer os pontos que você mencionou. Embora a divisão da idade possa lidar com a não linearidade na regressão logística, ela pode aumentar a possibilidade de separação completa. Não sei ao certo o que você quer dizer com "design agrupado", mas desconfio dos esforços para interpretar os valores p de uma regressão logística em que um modelo de probabilidade não pode ser justificado (que é o que a amostragem aleatória nos permite fazer).
whuber
Obrigado por estes. Sim, eu aprecio totalmente o argumento que você faz sobre a separação completa (efeitos de Hauck-Donner), não os considerei. OK, entendo o que você quer dizer agora sobre as duas piscinas agora. Nesse caso, teríamos um conceito de estudo observacional acordado (observamos / definimos as duas piscinas), portanto, devemos procurar formas de controlá-lo (pontuações de propensão, etc.)
usεr11852 diz Reinstate Monic
5

tXY

X|Y=EuN(μEu,σ2).
Ybernoulli(p)YX=x
P(Y=1|X=x)=fX|Y=1(x)P(Y=1)i=01fX|Y=i(x)P(Y=i)=pe12σ2(xμ1)2pe12σ2(xμ1)2+(1p)e12σ2(xμ0)2=11+1ppe12σ2(xμ0)2+12σ2(xμ1)2=logit1(β0+β1x)
that is, a logistic regression model with intercept and slope
β0=lnp1p12σ2(μ12μ02)β1=1σ2(μ1μ0).

So in this sense the two conditional models are compatible.

Jarle Tufto
fonte
3

The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.

Your research question is terribly vague. Perhaps if you considered direction of causality you'd be able to come to a conclusion about which analysis you want to use. Is age causing people to respond "yes" or is responding "yes" causing people to get older? It's more likely the former, in which case the variance in the probability of a "yes" is what you wish to model and therefore the logistic regression is the best choice.

That said, you should examine assumptions of the tests. Those can be found online at wikipedia or in your text books on them. It may well be that you have good reasons not to perform the logistic regression and, when that happens you may need to ask a different question.

John
fonte
1
Do you mean "not to perform the logistic regression"?
mark999