Normalmente, em regressão logística, ajustamos um modelo e obtemos algumas previsões sobre o conjunto de treinamento. Em seguida, validamos cruzadamente essas previsões de treinamento (algo como aqui ) e decidimos o valor do limite ideal com base em algo como a curva ROC.
Por que não incorporamos a validação cruzada do limite no modelo real e treinamos tudo de ponta a ponta?
fonte
Isso ocorre porque o limite ideal não é apenas uma função da taxa positiva verdadeira (TPR), da taxa de falso positivo (FPR), da precisão ou de qualquer outra coisa. O outro ingrediente crucial é o custo e a recompensa do correto e do errado decisões .
Se o seu objetivo é um resfriado comum, sua resposta a um teste positivo é prescrever duas aspirinas, e o custo de um verdadeiro positivo não tratado é um gasto desnecessário de dois dias em dores de cabeça, então seu limiar ideal de decisão (não classificação!) É bastante diferente de se o seu objetivo é alguma doença com risco de vida e sua decisão é (a) algum procedimento relativamente simples como uma apendicectomia ou (b) uma intervenção importante como meses de quimioterapia! E observe que, embora sua variável-alvo possa ser binária (doente / saudável), suas decisões podem ter mais valores (enviar para casa com duas aspirinas / executar mais testes / admitir no hospital e assistir / operar imediatamente).
Conclusão: se você conhece sua estrutura de custos e todas as decisões diferentes, certamente pode treinar diretamente um sistema de suporte a decisões (DSS), que inclui uma classificação ou previsão probabilística. Eu, no entanto, argumentaria fortemente que discretizar previsões ou classificações por meio de limiares não é o caminho certo para fazer isso.
Consulte também minha resposta para o segmento "Limite de probabilidade de classificação" anterior . Ou esta resposta minha . Ou aquele .
fonte
Preocupações filosóficas à parte, isso causaria dificuldades computacionais.
A razão é que as funções com saída contínua são relativamente fáceis de otimizar. Você procura a direção em que a função aumenta e depois segue esse caminho. Se alterarmos nossa função de perda para incluir a etapa de "corte", nossa produção se tornará discreta e, portanto, nossa função de perda também será discreta. Agora, quando alteramos os parâmetros de nossa função logística em "um pouco" e, em conjunto, alteramos o valor de corte em "um pouco", nossa perda fornece um valor idêntico e a otimização se torna difícil. Obviamente, não é impossível (existe todo um campo de estudo em otimização discreta ), mas a otimização contínua é de longeo problema mais fácil de resolver quando você está otimizando muitos parâmetros. Convenientemente, uma vez que o modelo logístico foi ajustado, encontrar o ponto de corte ideal, embora ainda seja um problema discreto de saída, agora está apenas em uma variável, e podemos apenas fazer uma pesquisa na grade, ou algo parecido, que é totalmente viável em uma variável.
fonte
Independentemente do modelo subjacente, podemos calcular as distribuições amostrais de TPR e FPR em um limite. Isso implica que podemos caracterizar a variabilidade em TPR e FPR em algum limite e podemos voltar a uma troca de taxa de erro desejada.
Uma curva ROC é um pouco enganadora porque a única coisa que você controla é o limite, no entanto, o gráfico exibe TPR e FPR, que são funções do limite. Além disso, o TPR e o FPR são ambos estatísticas , portanto estão sujeitos aos caprichos da amostragem aleatória. Isso implica que, se você repetir o procedimento (digamos, por validação cruzada), poderá criar um FPR e TPR diferente em algum valor limite específico.
No entanto, se pudermos estimar a variabilidade no TPR e no FPR, não é necessário repetir o procedimento ROC. Apenas escolhemos um limite para que os pontos finais de um intervalo de confiança (com alguma largura) sejam aceitáveis. Ou seja, escolha o modelo para que o FPR esteja plausivelmente abaixo do máximo especificado pelo pesquisador e / ou o TPR esteja plausivelmente acima um mínimo especificado pelo pesquisador. Se o seu modelo não conseguir atingir suas metas, você precisará criar um modelo melhor.
Obviamente, quais valores de TPR e FPR são toleráveis em seu uso dependerão do contexto.
Para obter mais informações, consulte ROC Curves for Continuous Data, de Wojtek J. Krzanowski e David J. Hand.
fonte
Geralmente na pesquisa biomédica, não usamos um conjunto de treinamento - apenas aplicamos regressão logística no conjunto de dados completo para ver quais preditores são fatores de risco significativos para o resultado que estamos analisando; ou examinar um preditor de interesse enquanto controla o efeito de outros possíveis preditores no resultado.
Não sei bem o que você quer dizer com valores limite, mas existem vários parâmetros que se pode otimizar: AUC, valores de corte para uma dicotomização de uma variável preditora contínua, valores preditivos positivos e negativos, intervalos de confiança e valores p, taxas de falso positivo e falso negativo. A regressão logística analisa uma população de indivíduos e avalia a força e a direção causal dos fatores de risco que contribuem para o resultado de interesse nessa população. Também é possível "executá-lo ao contrário", por assim dizer, e determinar o risco de um indivíduo para o resultado, dados os fatores de risco que o indivíduo possui. A regressão logística atribui a cada indivíduo um risco do resultado, com base em seus fatores de risco individuais e, por padrão, é 0,5. Se um sujeito ' s a probabilidade de ter o resultado (com base em todos os dados e assuntos em seu modelo) é de 0,5 ou superior, prevê que ele terá o resultado; se abaixo de 0,5, ele prevê que não. Mas você pode ajustar esse nível de corte, por exemplo, para sinalizar mais indivíduos que podem estar em risco de obter o resultado, embora ao preço de ter mais falsos positivos previstos pelo modelo. Você pode ajustar esse nível de corte para otimizar as decisões de triagem, a fim de prever quais indivíduos seriam aconselhados a ter acompanhamento médico adicional, por exemplo; e construir seu valor preditivo positivo, valor preditivo negativo e taxas de falso negativo e falso positivo para um teste de triagem com base no modelo de regressão logística. Você pode desenvolver o modelo na metade do seu conjunto de dados e testá-lo na outra metade, mas não você realmente precisa (e isso reduzirá os dados de "treinamento" pela metade e, assim, reduzirá o poder de encontrar preditores significativos no modelo). Então, sim, você pode "treinar tudo de ponta a ponta". Obviamente, na pesquisa biomédica, você deseja validá-lo em outra população, outro conjunto de dados antes de dizer que seus resultados podem ser generalizados para uma população mais ampla. Outra abordagem é usar uma abordagem do tipo bootstrapping, na qual você executa seu modelo em uma subamostra da população do seu estudo, substitui os sujeitos de volta ao pool e repete com outra amostra várias vezes (geralmente 1000 vezes). Se você obtiver resultados significativos na maioria das vezes prescrita (por exemplo, 95% das vezes), seu modelo poderá ser considerado validado - pelo menos em seus próprios dados. Mas, novamente, quanto menor a população de estudo em que você executa seu modelo, menos provável será que alguns preditores sejam fatores de risco estatisticamente significativos para o resultado. Isto é especialmente verdade para estudos biomédicos com número limitado de participantes.
Usar metade dos seus dados para 'treinar' seu modelo e depois 'validá-lo' na outra metade é um encargo desnecessário. Você não faz isso para testes t ou regressão linear; por que fazê-lo em regressão logística? O máximo que ele fará é permitir que você diga 'sim, funciona', mas se você usar todo o conjunto de dados, poderá determinar isso de qualquer maneira. Dividir seus dados em conjuntos de dados menores corre o risco de não detectar fatores de risco significativos na população do estudo (OU na população de validação) quando eles estão de fato presentes, devido ao pequeno tamanho da amostra, com muitos preditores para o tamanho do estudo e a possibilidade que sua 'amostra de validação' não mostrará associações apenas por acaso. A lógica por trás da abordagem 'treinar e validar' parece ser que, se os fatores de risco que você identifica como significativos não forem fortes o suficiente, eles não serão estatisticamente significativos quando modelados em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo.
fonte