Um grupo de pessoas responde a uma pergunta. A resposta pode ser "sim" ou "não". O pesquisador deseja saber se a idade está associada ao tipo de resposta.
A associação foi avaliada através de uma regressão logística em que a idade é a variável explicativa e o tipo de resposta (sim, não) é a variável dependente. Foi abordada separadamente, calculando a idade média dos grupos que responderam "sim" e "não", respectivamente, e realizando um teste T para comparar médias.
Ambos os testes foram realizados seguindo o conselho de pessoas diferentes, e nenhum deles tem certeza de qual é o caminho certo a seguir. Em vista da questão de pesquisa, qual seria o melhor teste?
Para o teste de hipóteses, os valores de p não foram significativos (regressão) e significativos (teste T). A amostra é inferior a 20 casos.
fonte
Respostas:
Ambos os testes modelam implicitamente a relação idade-resposta, mas o fazem de maneiras diferentes. Qual escolher depende de como você escolhe modelar esse relacionamento. Sua escolha deve depender de uma teoria subjacente, se houver uma; sobre que tipo de informação você deseja extrair dos resultados; e sobre como a amostra é selecionada. Esta resposta discute esses três aspectos em ordem.
Descreverei o teste t e a regressão logística usando uma linguagem que supõe que você esteja estudando uma população bem definida de pessoas e deseje fazer inferências da amostra para essa população.
Para apoiar qualquer tipo de inferência estatística, devemos assumir que a amostra é aleatória.
Um teste t assume que as pessoas na amostra que respondem "não" são uma amostra aleatória simples de todos os não respondentes da população e que as pessoas na amostra que respondem "sim" são uma amostra aleatória simples de todos os que responderam sim na população.
Um teste t faz suposições técnicas adicionais sobre as distribuições das idades em cada um dos dois grupos da população. Existem várias versões do teste t para lidar com as possibilidades prováveis.
A regressão logística assume que todas as pessoas de qualquer idade são uma amostra aleatória simples das pessoas dessa idade na população. Os grupos etários separados podem exibir taxas diferentes de respostas "sim". Essas taxas, quando expressas como probabilidades logarítmicas (em vez de proporções retas), são consideradas linearmente relacionadas à idade (ou a algumas funções determinadas da idade).
A regressão logística é facilmente estendida para acomodar relações não lineares entre idade e resposta. Essa extensão pode ser usada para avaliar a plausibilidade da suposição linear inicial. É praticável com grandes conjuntos de dados, que fornecem detalhes suficientes para exibir não linearidades, mas é improvável que seja muito útil com pequenos conjuntos de dados. Uma regra prática comum - que os modelos de regressão devem ter dez vezes mais observações que os parâmetros - sugere que são necessárias substancialmente mais de 20 observações para detectar a não linearidade (que precisa de um terceiro parâmetro além da interceptação e inclinação de uma função linear )
Um teste t detecta se as idades médias diferem entre respondentes não e sim na população. Uma regressão logística estima como a taxa de resposta varia de acordo com a idade. Como tal, é mais flexível e capaz de fornecer informações mais detalhadas do que o teste t. Por outro lado, tende a ser menos poderoso que o teste t com o objetivo básico de detectar uma diferença entre as idades médias dos grupos.
É possível que o par de testes exiba todas as quatro combinações de significância e não significância. Dois deles são problemáticos:
O teste t não é significativo, mas a regressão logística é. Quando as suposições de ambos os testes são plausíveis, esse resultado é praticamente impossível, porque o teste t não está tentando detectar uma relação tão específica como a regressão logística. No entanto, quando esse relacionamento é suficientemente não linear para fazer com que os indivíduos mais velhos e mais jovens compartilhem uma opinião e os indivíduos de meia idade com outra, a extensão da regressão logística para relacionamentos não lineares pode detectar e quantificar essa situação, que nenhum teste t poderia detectar .
O teste t é significativo, mas a regressão logística não é, como na pergunta. Isso geralmente acontece, especialmente quando há um grupo de respondentes mais jovens, um grupo de respondentes mais velhos e poucas pessoas no meio. Isso pode criar uma grande separação entre as taxas de resposta dos respondentes não e sim. É facilmente detectado pelo teste t. No entanto, a regressão logística teria relativamente poucas informações detalhadas sobre como a taxa de resposta realmente muda com a idade ou teria informações inconclusivas: o caso de "separação completa", em que todos os idosos respondem de uma maneira e todos os jovens de outra maneira-- mas, nesse caso, os dois testes normalmente teriam valores p muito baixos.
Observe que o design experimental pode invalidar algumas das suposições do teste. Por exemplo, se você selecionou pessoas de acordo com a idade em um design estratificado, a suposição do teste t (de que cada grupo reflete uma amostra aleatória simples de idades) se torna questionável. Esse projeto sugeriria confiar na regressão logística. Se, em vez disso, você teve dois grupos, um dos que não responderam e um dos que responderam sim, e selecionados aleatoriamente dentre esses para determinar sua idade, as suposições amostrais da regressão logística são duvidosas enquanto as do teste t se mantêm. Esse design sugere o uso de alguma forma de teste t.
(O segundo design pode parecer tolo aqui, mas em circunstâncias em que "idade" é substituída por alguma característica difícil, dispendiosa ou demorada para medir, pode ser atraente.)
fonte
So in this sense the two conditional models are compatible.
fonte
The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.
Your research question is terribly vague. Perhaps if you considered direction of causality you'd be able to come to a conclusion about which analysis you want to use. Is age causing people to respond "yes" or is responding "yes" causing people to get older? It's more likely the former, in which case the variance in the probability of a "yes" is what you wish to model and therefore the logistic regression is the best choice.
That said, you should examine assumptions of the tests. Those can be found online at wikipedia or in your text books on them. It may well be that you have good reasons not to perform the logistic regression and, when that happens you may need to ask a different question.
fonte