Eu tenho uma pergunta conceitual "estatística básica". Como estudante, eu gostaria de saber se estou pensando nisso totalmente errado e por que, se sim:
Digamos que eu esteja hipoteticamente tentando examinar a relação entre "problemas de controle da raiva" e dizer divórcio (sim / não) em uma regressão logística e eu tenho a opção de usar duas pontuações diferentes no controle da raiva - ambas em 100.
Pontuação 1 vem do instrumento de classificação do questionário 1 e minha outra opção; a pontuação 2 vem de um questionário diferente. Hipoteticamente, temos motivos para acreditar em trabalhos anteriores que os problemas de controle da raiva dão origem ao divórcio.
Se, na minha amostra de 500 pessoas, a variação da pontuação 1 for muito maior do que a pontuação 2, existe alguma razão para acreditar que a pontuação 1 seria uma pontuação melhor para ser usada como preditor de divórcio com base na variação?
Para mim, isso parece instintivamente certo, mas é assim?
fonte
Respostas:
Alguns pontos rápidos:
fonte
Um exemplo simples nos ajuda a identificar o que é essencial.
Seja
onde e γ são parâmetros, X 1 é a pontuação no primeiro instrumento (ou variável independente) e ε representa erro iid imparcial. Deixe a pontuação no segundo instrumento relacionada ao primeiro instrumento viaC γ X1 ε
Por exemplo, as pontuações no segundo instrumento podem variar de 25 a 75 e as pontuações no primeiro de 0 a 100, com . A variação de X 1 é α 2 vezes a variação de X 2 . No entanto, podemos reescreverX1= 2 X2- 50 X1 α2 X2
Os parâmetros mudam e a variação da variável independente muda , mas a capacidade preditiva do modelo permanece inalterada .
fonte
Sempre verifique as suposições para o teste estatístico que você está usando!
Uma das premissas da regressão logística é a independência dos erros, o que significa que os casos de dados não devem ser relacionados. Por exemplo. você não pode medir as mesmas pessoas em momentos diferentes, o que temo que você tenha feito com suas pesquisas de controle da raiva.
Eu também ficaria preocupado que, com duas pesquisas de controle da raiva, você esteja basicamente medindo a mesma coisa e sua análise possa sofrer de multicolinearidade.
fonte