Limite de probabilidade de classificação

49

Eu tenho uma pergunta sobre classificação em geral. Seja f um classificador, que produz um conjunto de probabilidades, com base em alguns dados D. Normalmente, alguém diria: bem, se P (c | D)> 0,5, atribuiremos uma classe 1, caso contrário, 0 (que seja binário classificação).

Minha pergunta é: e se eu descobrir, se eu classificar como 1 também as probabilidades, maiores que: ie 0,2, o classificador terá um desempenho melhor. É legítimo usar esse novo limite ao fazer a classificação?

Eu interpretaria a necessidade de uma classificação mais baixa vinculada no contexto dos dados que emitem um sinal menor; ainda significativo para o problema de classificação.

Sei que essa é uma maneira de fazê-lo; no entanto, se esse não for o pensamento correto, quais seriam algumas transformações de dados, que enfatizam os recursos individuais de maneira semelhante, para que o limite possa permanecer em 0,5?

sdgaw erzswer
fonte
8
Você já tem uma excelente resposta, então deixe-me apenas dizer o seguinte: seu "normalmente" não é normalmente o que deveria ser normal. Não sei ao certo onde a coisa "limiar em 0,5" se tornou padrão e sei que há algum software excelente que incentiva a idéia, mas é uma prática muito ruim em geral.
Matthew Drury
11
@MatthewDrury: a menos que, é claro, a pontuação seja a probabilidade posterior relevante e bem calibrada de não cometer nenhum erro importante (o último cuidaria de diferentes custos de classificação incorreta).
Cbeleites suporta Monica

Respostas:

68

Frank Harrell escreveu sobre isso em seu blog: Classificação x Previsão , com o qual concordo plenamente.

Essencialmente, o argumento dele é que o componente estatístico do seu exercício termina quando você gera uma probabilidade para cada classe da sua nova amostra. A escolha de um limite além do qual você classifica uma nova observação como 1 x 0 não faz mais parte das estatísticas . Faz parte do componente de decisão . E aqui, você precisa da saída probabilística do seu modelo - mas também de considerações como:

  • Quais são as consequências de decidir tratar uma nova observação como classe 1 vs. 0? Então, envio um email de marketing barato para todos os 1s? Ou aplico um tratamento invasivo contra o câncer com grandes efeitos colaterais?
  • Quais são as consequências de tratar um 0 "verdadeiro" como 1 e vice-versa? Vou marcar um cliente? Submeter alguém a tratamento médico desnecessário?
  • Minhas "aulas" são realmente discretas? Ou existe realmente um continuum (por exemplo, pressão arterial), em que os limiares clínicos são, na realidade, apenas atalhos cognitivos? Em caso afirmativo, a que ponto estou além do limite que estou "classificando" agora?
  • Ou uma probabilidade baixa mas positiva de ser da classe 1 realmente significa "obter mais dados", "executar outro teste"?

Portanto, para responder à sua pergunta: fale com o consumidor final da sua classificação e obtenha respostas para as perguntas acima. Ou explique sua saída probabilística para ela e deixe-a seguir os próximos passos.

S. Kolassa - Restabelecer Monica
fonte
11
Muito obrigado por esta resposta perspicaz. Vou estudar mais o problema em si - tenho certeza de que, de alguma forma, posso converter essa propriedade na parte de aprendizado estatístico.
sdgaw erzswer
Uau, gostaria de poder acrescentar algo a isso, mas não obtive nada, excelente resposta!
the_SJC
4
Resposta muito boa: as perguntas estão prontas! No entanto, minha profissão é do lado do aplicativo, se encontrar um limite de decisão é chamado de estatística ou não - ele se enquadra totalmente em minhas obrigações profissionais ... E para mim isso faz parte do modelo, assim como o "pré-processamento" faz parte do o modelo - também pelo motivo de que todas essas decisões precisam ser cobertas no processo de validação.
cbeleites suporta Monica
11

A resposta de Stephan é ótima. Depende fundamentalmente do que você deseja fazer com o classificador.

Apenas adicionando alguns exemplos.

Uma maneira de encontrar o melhor limite é definir uma função objetiva. Para classificação binária, isso pode ser precisão ou pontuação F1, por exemplo. Dependendo da sua escolha, o melhor limite será diferente. Para o escore F1, há uma resposta interessante aqui: O que é o limiar ideal para F1? Como calcular? . Mas dizer "eu quero usar a pontuação da F1" é onde você realmente faz a escolha. Se essa escolha é boa ou não, depende do objetivo final.

Outra maneira de ver isso é enfrentar o trade-off entre exploração e exploração (o último ponto de Stephan): O bandido com várias armas é um exemplo de um problema: você precisa lidar com dois objetivos conflitantes de obter informações e escolher o melhor bandido. . Uma estratégia bayesiana é escolher cada bandido aleatoriamente com a probabilidade de ser o melhor. Não é exatamente uma classificação, mas trata as probabilidades de saída de maneira semelhante.

Se o classificador for apenas um bloco no algoritmo de tomada de decisão, o melhor limite dependerá do objetivo final do algoritmo. Deve ser avaliado e ajustado em relação à função objetivo de todo o processo.

Benoit Sanchez
fonte
Obrigado por outra ótima resposta. Se eu entendi direito, se estou lidando com a etapa final do pipeline, é completamente legítimo otimizar diretamente o limite.
sdgaw erzswer
@sdgawerzswer: sim. E a) certifique-se de otimizar a resposta para a pergunta certa eb) certifique-se de validar essa decisão (e determinação de limiar) juntamente com o restante do modelo.
cbeleites suporta Monica
3

Possivelmente, existe algum valor em considerar como a probabilidade é calculada. Hoje em dia, os Classificadores usam um vetor de viés, multiplicado por uma matriz (álgebra linear). Enquanto houver valores diferentes de zero no vetor, a probabilidade (o produto do vetor e a matriz) nunca será 0.

Isso causa confusão no mundo real de pessoas que não usaram álgebra linear, eu acho. Eles se incomodam com o fato de que existem pontuações de probabilidade para itens que acham que deveriam ter 0. Em outras palavras, eles estão confundindo a entrada estatística, da decisão com base nessa entrada. Como seres humanos, poderíamos dizer que algo com uma probabilidade de 0,0002234 é o mesmo que 0, na maioria dos casos de uso "práticos". Em discussões sobre ciências cognitivas superiores, talvez, haja uma discussão interessante sobre por que o vetor de viés faz isso, ou melhor, isso é válido para aplicações cognitivas.

Kameron Cole
fonte
2

Não há limite errado. O limite que você escolhe depende do seu objetivo em sua previsão, ou melhor, do que você deseja favorecer, por exemplo, precisão versus recall (tente fazer um gráfico e medir sua AUC associada para comparar diferentes modelos de classificação de sua escolha).

Estou dando esse exemplo de precisão versus recall, porque no meu caso de problema em que estou trabalhando agora, escolho meu limite, dependendo da precisão mínima (ou Valor preditivo positivo de PPV) que desejo que meu modelo tenha ao prever, mas eu não se preocupam muito com negativos. Como tal, pego o limiar que corresponde à precisão desejada depois de treinar meu modelo. Precisão é minha restrição e Recall é o desempenho do meu modelo, quando comparo com outros modelos de classificação.

Alex F
fonte