Eu tenho um modelo de regressão logística binária com um pseudo-quadrado de McFadden de 0,192 com uma variável dependente chamada pagamento (1 = pagamento e 0 = nenhum pagamento). Qual é a interpretação desse pseudo R-quadrado?
É uma comparação relativa para modelos aninhados (por exemplo, um modelo de 6 variáveis possui um pseudo-quadrado de McFadden de 0,192, enquanto um modelo de 5 variáveis (após remover uma variável do modelo de 6 variáveis acima mencionado), esse modelo de 5 variáveis tem um pseudo R -squared of 0.131. Nós gostaríamos de manter essa sexta variável no modelo?) ou é uma quantidade absoluta (por exemplo, um determinado modelo que tenha um pseudo-quadrado de McFadden R-quadrado de 0,192 é melhor do que qualquer modelo existente com o pseudo de McFadden R-quadrado de 0,180 (mesmo para modelos não aninhados)? Essas são apenas maneiras possíveis de olhar para o pseudo-quadrado de R de McFadden; no entanto, eu assumo que essas duas visões estão distantes, portanto, a razão pela qual estou fazendo essa pergunta aqui.
Fiz muita pesquisa sobre esse tópico e ainda não encontrei a resposta que estou procurando em termos de capacidade de interpretar o pseudo-quadrado de R $ 0,192 de McFadden. Qualquer insight e / ou referências são muito apreciadas! Antes de responder a essa pergunta, estou ciente de que essa não é a melhor medida para descrever um modelo de regressão logística, mas eu gostaria de ter uma compreensão maior dessa estatística independentemente!
fonte
O R ao quadrado de McFadden é definido como 1-l_mod / l_null, onde l_mod é o valor de probabilidade do log para o modelo ajustado e l_null é a probabilidade do log para o modelo nulo que inclui apenas uma interceptação como preditor (de modo que cada indivíduo tenha a mesma probabilidade) de sucesso').
Para um modelo de regressão logística, o valor da probabilidade do log é sempre negativo (porque a contribuição da probabilidade de cada observação é uma probabilidade entre 0 e 1). Se o seu modelo realmente não predizer o resultado melhor que o modelo nulo, l_mod não será muito maior que l_null e, portanto, l_mod / l_null é aproximadamente 1 e o R ao quadrado de McFadden é próximo de 0 (seu modelo não tem valor preditivo) .
Por outro lado, se seu modelo fosse realmente bom, os indivíduos com um resultado de sucesso (1) teriam uma probabilidade ajustada próxima a 1 e vice-versa para aqueles com um resultado de falha (0). Nesse caso, se você passar pelo cálculo da probabilidade, a contribuição da probabilidade de cada indivíduo para o seu modelo será próxima de zero, de modo que l_mod seja próximo de zero e o R ao quadrado de McFadden seja próximo de 1, indicando uma capacidade preditiva muito boa.
Quanto ao que pode ser considerado um bom valor, minha opinião pessoal é que, assim como perguntas semelhantes em estatística (por exemplo, o que constitui uma grande correlação?), Isso nunca pode ser uma resposta definitiva. No ano passado, escrevi um post sobre o R de McFadden ao quadrado na regressão logística, que tem mais algumas ilustrações de simulação.
fonte
Fiz uma pesquisa mais focada sobre esse tópico e descobri que as interpretações do pseudo-quadrado de R McFadden (também conhecido como índice de razão de verossimilhança) não são claras; no entanto, pode variar de 0 a 1, mas nunca alcançará ou excederá 1 como resultado de seu cálculo.
Uma regra prática que achei bastante útil é que o pseudo-quadrado de um McFadden variando de 0,2 a 0,4 indica um ajuste muito bom do modelo. Como tal, o modelo mencionado acima com um pseudo-quadrado de 0,1192 de McFadden provavelmente não é um modelo terrível, pelo menos por essa métrica, mas também não é particularmente forte.
Também é importante observar que o pseudo-quadrado de McFadden é melhor usado para comparar especificações diferentes do mesmo modelo (ou seja, modelos aninhados). Em referência ao exemplo mencionado acima, o modelo de 6 variáveis (pseudo-quadrado de R McFadden = 0,192) ajusta os dados melhor que o modelo de 5 variáveis (pseudo-quadrado de R-McFadden = 0,131), que eu testei formalmente usando um teste de razão de verossimilhança , o que indica que há uma diferença significativa ( p <0,001) entre os dois modelos e, portanto, o modelo de 6 variáveis é preferido para o conjunto de dados fornecido.
fonte
http://cowles.yale.edu/sites/default/files/files/pub/d04/d0474.pdf
fonte