Eu tenho uma pergunta sobre classificação em geral. Seja f um classificador, que produz um conjunto de probabilidades, com base em alguns dados D. Normalmente, alguém diria: bem, se P (c | D)> 0,5, atribuiremos uma classe 1, caso contrário, 0 (que seja binário classificação).
Minha pergunta é: e se eu descobrir, se eu classificar como 1 também as probabilidades, maiores que: ie 0,2, o classificador terá um desempenho melhor. É legítimo usar esse novo limite ao fazer a classificação?
Eu interpretaria a necessidade de uma classificação mais baixa vinculada no contexto dos dados que emitem um sinal menor; ainda significativo para o problema de classificação.
Sei que essa é uma maneira de fazê-lo; no entanto, se esse não for o pensamento correto, quais seriam algumas transformações de dados, que enfatizam os recursos individuais de maneira semelhante, para que o limite possa permanecer em 0,5?
fonte
Respostas:
Frank Harrell escreveu sobre isso em seu blog: Classificação x Previsão , com o qual concordo plenamente.
Essencialmente, o argumento dele é que o componente estatístico do seu exercício termina quando você gera uma probabilidade para cada classe da sua nova amostra. A escolha de um limite além do qual você classifica uma nova observação como 1 x 0 não faz mais parte das estatísticas . Faz parte do componente de decisão . E aqui, você precisa da saída probabilística do seu modelo - mas também de considerações como:
Portanto, para responder à sua pergunta: fale com o consumidor final da sua classificação e obtenha respostas para as perguntas acima. Ou explique sua saída probabilística para ela e deixe-a seguir os próximos passos.
fonte
A resposta de Stephan é ótima. Depende fundamentalmente do que você deseja fazer com o classificador.
Apenas adicionando alguns exemplos.
Uma maneira de encontrar o melhor limite é definir uma função objetiva. Para classificação binária, isso pode ser precisão ou pontuação F1, por exemplo. Dependendo da sua escolha, o melhor limite será diferente. Para o escore F1, há uma resposta interessante aqui: O que é o limiar ideal para F1? Como calcular? . Mas dizer "eu quero usar a pontuação da F1" é onde você realmente faz a escolha. Se essa escolha é boa ou não, depende do objetivo final.
Outra maneira de ver isso é enfrentar o trade-off entre exploração e exploração (o último ponto de Stephan): O bandido com várias armas é um exemplo de um problema: você precisa lidar com dois objetivos conflitantes de obter informações e escolher o melhor bandido. . Uma estratégia bayesiana é escolher cada bandido aleatoriamente com a probabilidade de ser o melhor. Não é exatamente uma classificação, mas trata as probabilidades de saída de maneira semelhante.
Se o classificador for apenas um bloco no algoritmo de tomada de decisão, o melhor limite dependerá do objetivo final do algoritmo. Deve ser avaliado e ajustado em relação à função objetivo de todo o processo.
fonte
Possivelmente, existe algum valor em considerar como a probabilidade é calculada. Hoje em dia, os Classificadores usam um vetor de viés, multiplicado por uma matriz (álgebra linear). Enquanto houver valores diferentes de zero no vetor, a probabilidade (o produto do vetor e a matriz) nunca será 0.
Isso causa confusão no mundo real de pessoas que não usaram álgebra linear, eu acho. Eles se incomodam com o fato de que existem pontuações de probabilidade para itens que acham que deveriam ter 0. Em outras palavras, eles estão confundindo a entrada estatística, da decisão com base nessa entrada. Como seres humanos, poderíamos dizer que algo com uma probabilidade de 0,0002234 é o mesmo que 0, na maioria dos casos de uso "práticos". Em discussões sobre ciências cognitivas superiores, talvez, haja uma discussão interessante sobre por que o vetor de viés faz isso, ou melhor, isso é válido para aplicações cognitivas.
fonte
Não há limite errado. O limite que você escolhe depende do seu objetivo em sua previsão, ou melhor, do que você deseja favorecer, por exemplo, precisão versus recall (tente fazer um gráfico e medir sua AUC associada para comparar diferentes modelos de classificação de sua escolha).
Estou dando esse exemplo de precisão versus recall, porque no meu caso de problema em que estou trabalhando agora, escolho meu limite, dependendo da precisão mínima (ou Valor preditivo positivo de PPV) que desejo que meu modelo tenha ao prever, mas eu não se preocupam muito com negativos. Como tal, pego o limiar que corresponde à precisão desejada depois de treinar meu modelo. Precisão é minha restrição e Recall é o desempenho do meu modelo, quando comparo com outros modelos de classificação.
fonte