Dadas várias dobras de validação cruzada de uma regressão logística e as múltiplas estimativas resultantes de cada coeficiente de regressão, como medir se um preditor (ou conjunto de preditores) é / é estável ou significativo e estável com base no (s) coeficiente (s) de regressão ? Isso é diferente para regressão linear?
regression
model-selection
cross-validation
Jack Tanner
fonte
fonte
Respostas:
Você pode tratar os coeficientes de regressão resultantes de cada dobra de teste no CV como observações independentes e, em seguida, calcular sua confiabilidade / estabilidade usando o coeficiente de correlação intra-classe (ICC), conforme relatado por Shrout & Fleiss.
fonte
Suponho que em sua validação cruzada você divida os dados em duas partes, um conjunto de treinamento e um conjunto de teste. Em uma dobra, você ajusta um modelo do conjunto de treinamento e o utiliza para prever a resposta do conjunto de testes, certo? Isso fornecerá uma taxa de erro para todo o modelo, não para um único preditor.
Não sei se é possível encontrar valores-p para preditores usando algo como os testes F usados na regressão linear comum.
Você pode tentar remover preditores do modelo usando, por exemplo, seleção para trás ou para frente, se esse for o seu objetivo.
Em vez de CV, você poderia usar o bootstrap para encontrar um intervalo de confiança para cada preditor e, em seguida, ver como ele é estável.
Quantas dobras você usa no seu currículo, é uma validação cruzada de exclusão única?
Talvez mais detalhes sobre qual é seu objetivo ajudaria a responder a essa pergunta.
fonte
glm(..., family="binomial")
em R. O que faço com os intervalos de cada preditor nas execuções de exclusão?