Pergunta filosófica sobre regressão logística: por que o limiar ideal não é treinado?

13

Normalmente, em regressão logística, ajustamos um modelo e obtemos algumas previsões sobre o conjunto de treinamento. Em seguida, validamos cruzadamente essas previsões de treinamento (algo como aqui ) e decidimos o valor do limite ideal com base em algo como a curva ROC.

Por que não incorporamos a validação cruzada do limite no modelo real e treinamos tudo de ponta a ponta?

Estatísticas
fonte

Respostas:

19

Um limite não é treinado com o modelo porque a regressão logística não é um classificador (cf. Por que a Regressão Logística não é chamada de Classificação Logística? ). É um modelo para estimar o parâmetro p que governa o comportamento da distribuição de Bernoulli. Ou seja, você está assumindo que a distribuição da resposta, condicional às covariáveis, é Bernoulli e, portanto, deseja estimar como o parâmetro que controla essa variável muda em função das covariáveis. É um modelo de probabilidade direta única . Obviamente, ele pode ser usado como um classificador posteriormente e, às vezes, está em certos contextos, mas ainda é um modelo de probabilidade.

- Reinstate Monica
fonte
1
Ok, entendo essa parte da teoria (obrigado por essa explicação eloquente!), Mas por que não podemos incorporar o aspecto de classificação ao modelo? Ou seja, por que não podemos encontrar p, encontrar o limite e treinar tudo de ponta a ponta para minimizar algumas perdas?
StatsSorceress
4
Você certamente poderia (a resposta da @ Sycorax fala dessa possibilidade). Mas como esse não é o LR em si, mas sim um aumento ad hoc, você precisará codificar o esquema de otimização completo. Observe, no entanto, que Frank Harrell apontou que o processo levará ao que pode ser considerado um modelo inferior por muitos padrões.
gung - Restabelece Monica
1
Hmm. Li a resposta aceita na pergunta relacionada aqui e concordo com ela em teoria, mas às vezes em aplicativos de classificação de aprendizado de máquina não nos importamos com os tipos de erros relativos, apenas nos preocupamos com a "classificação correta". Nesse caso, você poderia treinar de ponta a ponta como eu descrevo?
StatsSorceress
4
Como eu disse, você pode configurar sua própria otimização personalizada que treinará o modelo e selecionará o limite simultaneamente. Você só precisa fazer isso sozinho e o modelo final provavelmente será mais pobre para a maioria dos padrões.
gung - Restabelece Monica
1
@StatsSorceress "... às vezes na classificação de aprendizado de máquina ...". Às vezes deve haver uma grande ênfase . É difícil imaginar um projeto em que a precisão seja a resposta correta. Na minha experiência, sempre envolve precisão e recordação de uma classe minoritária.
26419 Wayne
14

Isso ocorre porque o limite ideal não é apenas uma função da taxa positiva verdadeira (TPR), da taxa de falso positivo (FPR), da precisão ou de qualquer outra coisa. O outro ingrediente crucial é o custo e a recompensa do correto e do errado decisões .

Se o seu objetivo é um resfriado comum, sua resposta a um teste positivo é prescrever duas aspirinas, e o custo de um verdadeiro positivo não tratado é um gasto desnecessário de dois dias em dores de cabeça, então seu limiar ideal de decisão (não classificação!) É bastante diferente de se o seu objetivo é alguma doença com risco de vida e sua decisão é (a) algum procedimento relativamente simples como uma apendicectomia ou (b) uma intervenção importante como meses de quimioterapia! E observe que, embora sua variável-alvo possa ser binária (doente / saudável), suas decisões podem ter mais valores (enviar para casa com duas aspirinas / executar mais testes / admitir no hospital e assistir / operar imediatamente).

Conclusão: se você conhece sua estrutura de custos e todas as decisões diferentes, certamente pode treinar diretamente um sistema de suporte a decisões (DSS), que inclui uma classificação ou previsão probabilística. Eu, no entanto, argumentaria fortemente que discretizar previsões ou classificações por meio de limiares não é o caminho certo para fazer isso.

Consulte também minha resposta para o segmento "Limite de probabilidade de classificação" anterior . Ou esta resposta minha . Ou aquele .

Stephan Kolassa
fonte
4

Preocupações filosóficas à parte, isso causaria dificuldades computacionais.

A razão é que as funções com saída contínua são relativamente fáceis de otimizar. Você procura a direção em que a função aumenta e depois segue esse caminho. Se alterarmos nossa função de perda para incluir a etapa de "corte", nossa produção se tornará discreta e, portanto, nossa função de perda também será discreta. Agora, quando alteramos os parâmetros de nossa função logística em "um pouco" e, em conjunto, alteramos o valor de corte em "um pouco", nossa perda fornece um valor idêntico e a otimização se torna difícil. Obviamente, não é impossível (existe todo um campo de estudo em otimização discreta ), mas a otimização contínua é de longeo problema mais fácil de resolver quando você está otimizando muitos parâmetros. Convenientemente, uma vez que o modelo logístico foi ajustado, encontrar o ponto de corte ideal, embora ainda seja um problema discreto de saída, agora está apenas em uma variável, e podemos apenas fazer uma pesquisa na grade, ou algo parecido, que é totalmente viável em uma variável.

Scott
fonte
3

Independentemente do modelo subjacente, podemos calcular as distribuições amostrais de TPR e FPR em um limite. Isso implica que podemos caracterizar a variabilidade em TPR e FPR em algum limite e podemos voltar a uma troca de taxa de erro desejada.

Uma curva ROC é um pouco enganadora porque a única coisa que você controla é o limite, no entanto, o gráfico exibe TPR e FPR, que são funções do limite. Além disso, o TPR e o FPR são ambos estatísticas , portanto estão sujeitos aos caprichos da amostragem aleatória. Isso implica que, se você repetir o procedimento (digamos, por validação cruzada), poderá criar um FPR e TPR diferente em algum valor limite específico.

No entanto, se pudermos estimar a variabilidade no TPR e no FPR, não é necessário repetir o procedimento ROC. Apenas escolhemos um limite para que os pontos finais de um intervalo de confiança (com alguma largura) sejam aceitáveis. Ou seja, escolha o modelo para que o FPR esteja plausivelmente abaixo do máximo especificado pelo pesquisador e / ou o TPR esteja plausivelmente acima um mínimo especificado pelo pesquisador. Se o seu modelo não conseguir atingir suas metas, você precisará criar um modelo melhor.

Obviamente, quais valores de TPR e FPR são toleráveis ​​em seu uso dependerão do contexto.

Para obter mais informações, consulte ROC Curves for Continuous Data, de Wojtek J. Krzanowski e David J. Hand.

Sycorax diz restabelecer Monica
fonte
Isso realmente não responde à minha pergunta, mas é uma descrição muito boa das curvas ROC.
StatsSorceress
De que maneira isso não responde à sua pergunta? Qual é a sua pergunta, se não estiver perguntando sobre como escolher um limite para classificação?
Sycorax diz Reinstate Monica
2
Não conheço nenhum procedimento estatístico que funcione dessa maneira. Por que essa roda quadrada é uma boa idéia? Qual problema isso resolve?
Sycorax diz Reinstate Monica
1
"Como escolho um limiar de forma a reduzir o tempo de treinamento?" parece ser uma pergunta muito diferente da pergunta original.
Sycorax diz Restabelecer Monica
1
Independentemente disso, não vejo como isso economiza tempo. Fazer uma curva ROC não é a parte mais cara da estimativa de um modelo, portanto, mover a escolha do limite para a etapa de otimização parece ad hoc e desnecessário.
Sycorax diz Reinstate Monica
-2

Geralmente na pesquisa biomédica, não usamos um conjunto de treinamento - apenas aplicamos regressão logística no conjunto de dados completo para ver quais preditores são fatores de risco significativos para o resultado que estamos analisando; ou examinar um preditor de interesse enquanto controla o efeito de outros possíveis preditores no resultado.
Não sei bem o que você quer dizer com valores limite, mas existem vários parâmetros que se pode otimizar: AUC, valores de corte para uma dicotomização de uma variável preditora contínua, valores preditivos positivos e negativos, intervalos de confiança e valores p, taxas de falso positivo e falso negativo. A regressão logística analisa uma população de indivíduos e avalia a força e a direção causal dos fatores de risco que contribuem para o resultado de interesse nessa população. Também é possível "executá-lo ao contrário", por assim dizer, e determinar o risco de um indivíduo para o resultado, dados os fatores de risco que o indivíduo possui. A regressão logística atribui a cada indivíduo um risco do resultado, com base em seus fatores de risco individuais e, por padrão, é 0,5. Se um sujeito ' s a probabilidade de ter o resultado (com base em todos os dados e assuntos em seu modelo) é de 0,5 ou superior, prevê que ele terá o resultado; se abaixo de 0,5, ele prevê que não. Mas você pode ajustar esse nível de corte, por exemplo, para sinalizar mais indivíduos que podem estar em risco de obter o resultado, embora ao preço de ter mais falsos positivos previstos pelo modelo. Você pode ajustar esse nível de corte para otimizar as decisões de triagem, a fim de prever quais indivíduos seriam aconselhados a ter acompanhamento médico adicional, por exemplo; e construir seu valor preditivo positivo, valor preditivo negativo e taxas de falso negativo e falso positivo para um teste de triagem com base no modelo de regressão logística. Você pode desenvolver o modelo na metade do seu conjunto de dados e testá-lo na outra metade, mas não você realmente precisa (e isso reduzirá os dados de "treinamento" pela metade e, assim, reduzirá o poder de encontrar preditores significativos no modelo). Então, sim, você pode "treinar tudo de ponta a ponta". Obviamente, na pesquisa biomédica, você deseja validá-lo em outra população, outro conjunto de dados antes de dizer que seus resultados podem ser generalizados para uma população mais ampla. Outra abordagem é usar uma abordagem do tipo bootstrapping, na qual você executa seu modelo em uma subamostra da população do seu estudo, substitui os sujeitos de volta ao pool e repete com outra amostra várias vezes (geralmente 1000 vezes). Se você obtiver resultados significativos na maioria das vezes prescrita (por exemplo, 95% das vezes), seu modelo poderá ser considerado validado - pelo menos em seus próprios dados. Mas, novamente, quanto menor a população de estudo em que você executa seu modelo, menos provável será que alguns preditores sejam fatores de risco estatisticamente significativos para o resultado. Isto é especialmente verdade para estudos biomédicos com número limitado de participantes.
Usar metade dos seus dados para 'treinar' seu modelo e depois 'validá-lo' na outra metade é um encargo desnecessário. Você não faz isso para testes t ou regressão linear; por que fazê-lo em regressão logística? O máximo que ele fará é permitir que você diga 'sim, funciona', mas se você usar todo o conjunto de dados, poderá determinar isso de qualquer maneira. Dividir seus dados em conjuntos de dados menores corre o risco de não detectar fatores de risco significativos na população do estudo (OU na população de validação) quando eles estão de fato presentes, devido ao pequeno tamanho da amostra, com muitos preditores para o tamanho do estudo e a possibilidade que sua 'amostra de validação' não mostrará associações apenas por acaso. A lógica por trás da abordagem 'treinar e validar' parece ser que, se os fatores de risco que você identifica como significativos não forem fortes o suficiente, eles não serão estatisticamente significativos quando modelados em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo.

Jeremy
fonte