Estou fazendo uma validação cruzada usando o método deixar de fora. Eu tenho uma resposta binária e estou usando o pacote de inicialização para R e a função cv.glm . Meu problema é que não entendo completamente a parte "custo" dessa função. Pelo que entendi, é a função que decide se um valor estimado deve ser classificado como 1 ou 0, ou seja, o valor limite para a classificação. Isso está correto?
E, na ajuda em R eles usam esta função para um modelo binomial: cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)
. Como interpreto essa função? para que eu possa modificá-lo corretamente para minha análise.
Qualquer ajuda é apreciada, não quero usar uma função que não entendo.
fonte
Primeiro, você definiu um ponto de corte como 0,5. Seu r é 0/1, mas pi é probabilidade. Portanto, o custo individual é 1 se o erro absoluto for maior que 0,5, caso contrário, 0. Então, essa função calcula a taxa de erro média. Mas lembre-se, o limite foi definido antes de você definir sua função de custo.
Na verdade, acho que faz mais sentido se a escolha do ponto de corte for determinada pela função de custo.
fonte
A resposta do @SLi já explica muito bem o que a função de custo que você definiu faz. No entanto, pensei em acrescentar que a função de custo é usada para calcular o
delta
valor decv.glm
, que é uma medida do erro de validação cruzada. No entanto, criticamentedelta
é a média ponderada do erro de cada dobra fornecida pelo custo. Vemos isso inspecionando o bit relevante do código:e o valor retornado pela função é:
fonte