Combinando classificadores lançando uma moeda

15

Estou estudando um curso de aprendizado de máquina e os slides das palestras contêm informações que considero contraditórias com o livro recomendado.

O problema é o seguinte: existem três classificadores:

  • classificador A, que oferece melhor desempenho na faixa mais baixa dos limites,
  • classificador B, proporcionando melhor desempenho na faixa mais alta dos limites,
  • classificador C o que obtemos ao lançar uma moeda p e selecionar entre os dois classificadores.

Qual será o desempenho do classificador C, como visto em uma curva ROC?

Os slides das palestras afirmam que, apenas ao lançar esta moeda, obteremos o " casco convexo " mágico da curva ROC dos classificadores A e B.

Eu não entendo esse ponto. Simplesmente ao jogar uma moeda, como podemos obter informações?

O slide de palestra

slides de palestras

O que o livro diz

Por outro lado, o livro recomendado ( Data Mining ... de Ian H. Witten, Eibe Frank e Mark A. Hall ):

Para ver isso, escolha um ponto de corte de probabilidade específico para o método A que dê taxas positivas verdadeiras e falsas de tA e fA, respectivamente, e outro ponto de corte para o método B que dê tB e fB. Se você usar esses dois esquemas aleatoriamente com probabilidades p e q, onde p + q = 1, obterá taxas de p positivas verdadeiras e falsas. tA + q. tB e p. fA + q. fB. Isso representa um ponto na linha reta que une os pontos (tA, fA) e (tB, fB), e variando peq você pode traçar toda a linha entre esses dois pontos.

No meu entender, o que o livro diz é que, para obter informações e atingir o casco convexo, precisamos fazer algo mais avançado do que simplesmente jogar uma moeda-p.

AFAIK, a maneira correta (conforme sugerido pelo livro) é a seguinte:

  1. devemos encontrar um limite ideal Oa para o classificador A
  2. devemos encontrar um limite ótimo Ob para o classificador B
  3. defina C da seguinte maneira:

    • Se t <Oa, use o classificador A com t
    • Se t> Ob, use o classificador B com t
    • Se Oa <t <Ob, escolha entre o classificador A com Oa e B com Ob pela probabilidade como uma combinação linear de onde estamos entre Oa e Ob.

Isso está correto? Se sim, existem algumas diferenças importantes em comparação com o que os slides sugerem.

  1. Não é um simples lançamento de moeda, mas um algoritmo mais avançado que precisa de pontos e escolhas definidos manualmente com base em que região caímos.
  2. Ele nunca usa os classificadores A e B com valores limite entre Oa e Ob.

Você pode me explicar esse problema e qual é a maneira correta de entendê-lo , se meu entendimento não estiver correto?

O que aconteceria se simplesmente jogássemos uma moeda p como sugerem os slides? Eu pensaria que teríamos uma curva ROC que está entre A e B, mas nunca "melhor" do que a melhor em um determinado ponto.

Tanto quanto eu posso ver, eu realmente não entendo como os slides podem estar corretos. O cálculo probabilístico no lado esquerdo não faz sentido para mim.

Atualização: Foi encontrado o artigo escrito pelo autor original que inventou o método convexo do casco: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

hyperknot
fonte
Pela minha leitura do slide que você postou e do trecho do livro, eles parecem descrever exatamente a mesma coisa, e os slides não estão errados.
cardeal
Observe que também não é muito difícil construir uma simulação para se convencer do fato indicado no slide. A única dificuldade que você pode ter é construir duas curvas ROC que se parecem com isso, mas é gerenciável, digamos, usando um modelo de mistura gaussiano para gerar as observações e algumas regras de decisão abaixo do ideal.
cardeal

Respostas:

12

(Editado)

Os slides da palestra estão certos.

O método A tem um "ponto ótimo" que fornece taxas positivas verdadeiras e falsas (TPA, FPA no gráfico), respectivamente. Esse ponto corresponderia a um limite ou, em geral, [*] um limite de decisão ideal para A. O mesmo vale para B. (Mas os limites e os limites não estão relacionados).

Vimos que o classificador A tem um bom desempenho sob a preferência "minimizar falsos positivos" (estratégia conservadora) e o classificador B quando queremos "maximizar os verdadeiros positivos" (estratégia ansiosa).

A resposta para sua primeira pergunta é basicamente sim, exceto que a probabilidade da moeda é (em algum sentido) arbitrária. O clasiffier final seria:

xxp

(Corrigido: na verdade, as palestras estão completamente certas, podemos simplesmente jogar a moeda em qualquer caso. Veja diagramas)

p

[*] Você deve ser geral aqui: se você pensa em termos de um único limiar escalar, tudo isso faz pouco sentido; um recurso unidimensional com um classificador baseado em limiar não oferece graus de liberdade suficientes para ter classificadores diferentes como A e B, que são executados em diferentes curvas quando os parâmetros livres (limite de decisão = limite) variam. Em outras palavras: A e B são chamados "métodos" ou "sistemas", não "classificadores"; porque A é uma família inteira de classificadores, parametrizados por algum parâmetro (escalar) que determina um limite de decisão, não apenas um escalar]

Adicionei alguns diagramas para deixar mais claro:

insira a descrição da imagem aqui

ttttA=2ttB=4 rácio.

Nesse cenário, então, pode-se dizer que a linha laranja preenchida é o "classificador A ideal" (dentro de sua família), e o mesmo para B. Mas não se pode dizer se a linha laranja é melhor que a linha azul: se executa melhor quando atribuímos alto custo a falsos positivos, outro quando falsos negativos são muito mais caros.

insira a descrição da imagem aqui

Agora, pode acontecer que esses dois classificadores sejam extremos demais para nossas necessidades, gostaríamos que os dois tipos de erros tenham pesos semelhantes. Preferimos, em vez de usar o classificador A (ponto laranja) ou B (ponto azul) para obter um desempenho entre eles. Como o curso diz, pode-se obter esse resultado apenas lançando uma moeda e escolhendo um dos classificadores aleatoriamente.

Simplesmente ao jogar uma moeda, como podemos obter informações?

Não obtemos informações. Nosso novo classificador aleatório não é simplesmente "melhor" que A ou B, seu desempenho é uma média de A e B, no que diz respeito aos custos atribuídos a cada tipo de erro. Isso pode ser ou não benéfico para nós, dependendo de quais são nossos custos.

AFAIK, a maneira correta (como sugerido pelo livro) é a seguinte ... Está correto?

p

leonbloy
fonte
@ leonboy Eu acredito que x é o limite e para valores baixos de x o classificador A funciona melhor. Para valores altos de x, o classificador B funciona melhor. Na melhor das hipóteses, quero dizer, para a taxa de falsos positivos, a verdadeira taxa positiva é a mais alta. Se tudo o que sabemos é que A funciona melhor até um único ponto em que eles cruzam e B para todos os limites acima desse valor, qualquer algoritmo que dê peso menor que 1 a A na região entre FPa e FPb onde A tem o TP mais alto não pode executar assim como A. Portanto, esse algoritmo C deve ficar abaixo de A nessa região.
Michael R. Chernick
Da mesma forma, na região entre FPa e FPb, onde TP é maior para B, nenhum algoritmo com p maior que 0 terá um desempenho melhor que B. A fórmula para TPc está correta, mas uma média ponderada fixa entre TPb e TPa não pode ser maior que a maior de TPa e TPb. Tem que cair entre eles. Mas o diagrama sempre mostra TPc acima de TPa e TPb em toda a região a partir de FPa e FPb. Você vê algo que está faltando aqui? Não encontro na sua resposta.
Michael R. Chernick 15/05
11
Ok, a lâmpada se apagou! X é um vetor em sua mente, e não um limiar escalar. Isso realmente muda alguma coisa? O FP Aixs é uma probabilidade escalar. Meu ponto de passagem é o ponto FP da igualdade para A e B. Pode haver muitos vetores X que levam a ele. Estou apenas dizendo que em qualquer ponto do eixo FP entre FPa e FPb. TPc = p TPa + (1-p) TPb. A linha na plotagem está no plano TP vs FP. Como essa linha poderia atravessar os pontos acima das curvas para A e B quando o OP questionou (penso corretamente)?
Michael R. Chernick
11
@ Michael: Eu acho que A e B são métodos distintos que dão diferentes decisões sobre limites. Cada um tem um parâmetro ajustável (o que em 1D é um limite), os parâmetros são independentes e fornecem (para cada) uma família de classificadores. Vou tentar traçar um diagrama para tentar esclarecer, espere.
Leonbloy 15/05
11
Dei a leonbloy um voto positivo por essa bonita descrição. Mas gosto do comentário final do cardeal, porque esse argumento é claro para mim e concorda com meu último pensamento. @leobloy A única coisa que falta no seu diagrama é um gráfico dos pontos da regra aleatória que supera as duas. Eu acho que você pode descrever a nova regra como uma que pesa os dois erros de maneira diferente, mas não é necessária e acho menos confuso se você deixar esse argumento de fora.
Michael R. Chernick
2

Eu concordo com o seu raciocínio. Se você usar o classificador sacudindo moedas para escolher um quando estiver entre os pontos A e B, seu ponto na curva estará sempre abaixo do classificador melhor e acima do mais pobre e possivelmente não acima dos dois! Deve haver algo errado com o diagrama. No ponto em que as 2 curvas ROC cruzam o algoritmo de seleção aleatória, terá o mesmo desempenho que os dois algoritmos. Não estará acima dele da maneira que o diagrama o descreve.

Michael R. Chernick
fonte
11
Eu acredito que o slide está correto. Se você usar dois procedimentos de decisão diferentes com dois limites diferentes e depois tomar uma decisão aleatória, obterá uma combinação convexa que fornecerá um ponto entre os dois. Este ponto pode estar acima de ambas ( ! ) Das curvas na mesma taxa de falsos positivos. Isso ocorre porque o limite usado para cada procedimento é diferente nesse ponto.
cardeal
11
Portanto, A e B na combinação convexa são diferentes dos A e B escolhidos individualmente para a taxa de falsos positivos. Apenas acho que o diagrama foi confuso, pois não vi que A e B foram selecionados de uma família de classificadores.
Michael R. Chernick
11
UMAB
Acredito que esta resposta seja correta, anexada ao comentário do cardeal! Sair da área de interseção pode acontecer, mas não é um método. Encontrei o artigo original do cara que inventou esse método e explica muito bem! bmva.org/bmvc/1998/pdf/p082.pdf
hyperknot
@zsero: Acredito que até Michael reconhecerá que essa resposta foi baseada no entendimento do diagrama no momento em que a resposta foi postada e sua interpretação mudou desde que os comentários e outras respostas apareceram. Assim como a figura mostra, pode-se alcançar, por randomização, qualquer ponto em qualquer linha entre um ponto na primeira curva e um ponto na segunda, mesmo que a taxa positiva verdadeira resultante domine as outras duas curvas para uma dada taxa positiva falsa.
cardeal