Sobre a "força" de alunos fracos

22

Eu tenho várias perguntas relacionadas a alunos fracos na aprendizagem de grupos (por exemplo, impulsionar).

  1. Isso pode parecer idiota, mas quais são os benefícios de usar alunos fracos em oposição a alunos fortes? (por exemplo, por que não aumentar com métodos de aprendizado "fortes"?)
  2. Existe algum tipo de força "ideal" para os alunos fracos (por exemplo, mantendo todos os outros parâmetros do conjunto fixos)? Existe um "ponto ideal" quando se trata de sua força?
  3. Como podemos medir a força de um aluno fraco em relação à do método de conjunto resultante. Como medimos quantitativamente os benefícios marginais do uso de um conjunto?
  4. Como comparamos vários algoritmos de aprendizado fracos para decidir qual deles usar para um determinado método de conjunto?
  5. Se um determinado método de conjunto ajuda os classificadores fracos mais do que os fortes, como podemos dizer que um determinado classificador já é "forte demais" para gerar ganhos significativos ao aumentar com ele?
Amelio Vazquez-Reina
fonte

Respostas:

16

Isso pode ser mais em espírito de ensacamento, mas, no entanto:

  • Se você realmente tem um aluno forte, não há necessidade de aprimorá-lo em nenhum material ensemble.
  • Eu diria ... irrelevante. Ao mesclar e empacotar trivialmente, aumentar uma classificação muito forte pode levar a algumas violações na convergência (ou seja, uma previsão de sorte pode fazer a próxima iteração para prever ruído puro e, portanto, diminuir o desempenho), mas isso geralmente é reparado nas iterações em andamento.
  • Novamente, este não é o problema real. O cerne desses métodos é

    1. forçar os classificadores parciais a aprofundar o problema.
    2. junte suas previsões para atenuar o ruído e amplificar o sinal.

    1) precisa de alguma atenção para impulsionar (ou seja, bom esquema de reforço, comportar-se bem como aprendiz parcial - mas isso deve ser julgado principalmente por experimentos em todo o impulso), 2) em ensacamento e mistura (principalmente como garantir falta de correlação entre os alunos e não overnoise o conjunto). Enquanto isso estiver correto, a precisão do classificador parcial é um problema de terceira ordem.


fonte
Obrigado @mbq. O que foi dito acima significa que classificadores fracos geralmente se beneficiam mais com métodos de ensemble do que com métodos fortes? (ou seja, aumentar ajuda os classificadores fracos mais do que os fortes). Nesse sentido, como sabemos que um determinado classificador já é forte o suficiente para um determinado método de conjunto? (por exemplo, como é que pode dizer mais ou menos você tem uma forte aluno que não vai beneficiar muito com impulsionando?)
Amelio Vazquez-Reina
1
Em vez disso, apenas classificadores fracos dão espaço para melhorias. Em geral, a força é uma qualidade abstrata e não podemos realmente medi-la. O único teste certo é apenas para fazer um experimento e verificar se o conjunto aumenta significativamente o desempenho. Nesse caso, o classificador era fraco. Se não, bem, ainda não sabemos nada.
11

Primeiro, as noções de "fraco" e "forte" são apenas fracamente definidas. Do meu ponto de vista, eles devem ser definidos em relação ao classificador Bayes ideal, que é o alvo de qualquer algoritmo de treinamento. Com isso em mente, minha resposta a três dos pontos é a seguinte.

  1. Computacional como eu o vejo. A maioria dos alunos fracos que eu conheço são computacionalmente rápidos (e de outra forma não merecem consideração). Um ponto importante no aprendizado de conjuntos é precisamente o fato de podermos combinar alunos simples e rápidos, mas não tão bons, e melhorar a taxa de erro. Se usarmos alunos mais fortes (e computacionalmente mais exigentes), o espaço para melhorias se tornará menor, mas o custo computacional se tornará maior, o que torna o uso de métodos de conjunto menos interessante. Além disso, um único aluno forte pode ser mais fácil de interpretar. No entanto, o que é fraco e o que é forte depende do problema e da taxa ideal de Bayes que tentamos alcançar. Portanto, se um aluno que é frequentemente considerado forte ainda deixa espaço para melhorias ao aumentá-lo e aumentá-lo é computacionalmente viável, então o impulsione ...
  2. Isso dependerá dos critérios que você usa para medir "ideal". Em termos de taxa de erro, eu diria que não (agradeço as correções caso outras pessoas tenham uma experiência diferente). Em termos de velocidade, talvez, mas eu imagino que isso seja altamente dependente de problemas. Não conheço nenhuma literatura sobre isso, desculpe.
  3. ?
  4. Validação cruzada, validação cruzada, validação cruzada. Como qualquer outra comparação de métodos de treinamento com o objetivo de fazer previsões, precisamos de estimativas imparciais do erro de generalização para a comparação, o que pode ser alcançado colocando de lado um conjunto de dados de teste ou aproximando-o por validação cruzada.
NRH
fonte
Obrigado @NRH, isso é muito útil. Separei a terceira pergunta em duas perguntas separadas, pois acho que elas provavelmente exigem respostas diferentes.
Amelio Vazquez-Reina
Então, existe uma maneira de descobrir o quão perto um classificador está do classificador Bayes ideal? Se já estiver perto o suficiente, não podemos melhorá-lo.
highBandWidth 5/11
@highBandWidth, não é possível saber qual é a taxa de Bayes. É uma quantidade teórica que se baseia na distribuição desconhecida. Pressupostos teóricos podem fornecer limites inferiores e superiores (assintóticos) e, usando a validação cruzada ou dados de testes independentes, é possível estimar com precisão os limites superiores. Mas, a menos que você conheça a distribuição, é impossível saber se esses limites superiores estão apertados ou deixam margem para melhorias.
NRH 06/11