Consistência do processo de aprendizagem

9

Eu tenho duas perguntas relacionadas ao conceito de "consistência da aprendizagem" para aqueles que estão familiarizados com a teoria estatística da aprendizagem à la Vapnik.

Questão 1.
O processo de aprendizado é chamado de consistente (para a classe de funçõesF e distribuição de probabilidade P) E se

Remp(fl)PinffFR(f),l
e
R(fl)PinffFR(f),l

Essas duas condições são independentes. Na p. 83 da "Teoria Estatística da Aprendizagem" de Vapnik, há um exemplo de um conjunto de classificadoresFde modo que a segunda convergência ocorra, mas a primeira não. Eu estava pensando em um exemplo de um conjunto de classificadores, de modo que a primeira convergência ocorre, mas a segunda não, e não consegui encontrar nada. Alguém pode me ajudar aqui?

Questão 2.
O processo de aprendizado é chamado de consistência não trivial (ou consistentemente consistente) (para a classe de funçõesF e distribuição de probabilidade P) se para qualquer número real cR tal que definir Λ(c)={f|R(f)c} não está vazio, temos:

infflΛ(c)Remp(fl)=Remp(fl)PinffΛ(c)R(f),l

O P. 81 da "Teoria Estatística da Aprendizagem" de Vapnik fornece uma ilustração de por que queremos considerar consistência estrita em vez da consistência definida na Questão 1, ou seja, por que queremos introduzir Λ(c) e considere inffΛ(c) para qualquer c. Todos os outros textos que consideram consistência estrita essencialmente duplicam a ilustração de Vapnik quando querem explicar a lógica por trás do conceito de consistência estrita. No entanto, não estou muito satisfeito com a ilustração de Vapnik por dois motivos: primeiro, é feito em termos de funções de perdaQ(z,α)e não os classificadores; e, segundo, Fig. 3.2. do livro realmente não faz sentido quando consideramos a função de perda comum para problemas de classificação, ou seja, a função que é igual a 0 quando o rótulo de classe previsto é igual ao rótulo de classe real e a 1 caso contrário.

Então, é possível dar outra ilustração, mais sensata, da lógica por trás do conceito de consistência estrita? Essencialmente, precisamos de um exemplo de um conjunto de classificadores para que esses classificadores não sejam consistentes (em termos da definição da Questão 1) e de um novo classificador que tenha um desempenho melhor do que qualquer um dos classificadores do conjunto, para que, quando adicionarmos esses classificadores para o conjunto, acabamos com o caso de "consistência trivial". Alguma ideia?

Leo
fonte

Respostas:

1

Para sua pergunta 1, eu tenho um exemplo, mas requer que a função de perda aceite o valor . Tenho certeza de que podemos dar um exemplo que requer apenas uma função de perda ilimitada, mas seria um pouco mais trabalhoso para construir. Uma questão em aberto é se existe um exemplo com uma função de perda limitada.

Considere a configuração de classificação, onde a distribuição de probabilidade P está em um espaço Z=X×{0,1}. Vamos denotar um exemplo porz=(x,y)com xX e y{0,1}. DeixeiF=X{0,1} ser o espaço de todas as funções de classificação em X. Definir a função de perda

Q(z,f)=Q((x,y),f)={0for f(x)=yotherwise,
para qualquer fF. Em outras palavras, se você errou um exemplo ou todos eles, seu risco é.

Agora, suponha X={x1,x2,} é um conjunto infinitamente contável, e vamos P qualquer distribuição de probabilidade para a qual P({xi})>0 para todos i=1,2,. Além disso, vamos assumir que existe uma função de classificação determinística, ou seja, existe cF para qual yi=c(xi) para i=1,2,.... Isso implica queinffFR(f)=0.

Então para cada l, Remp(fl)=0, mas R(fl)= (a menos que haja uma escolha extremamente sortuda de fl entre todos aqueles fF que têm 0erro empírico). portantoRemp(fl)inffFR(f), mas R(fl) não converge para esse valor.

Para a questão 2, concordo que o exemplo dele não parece se aplicar ao caso de classificação e não vejo uma maneira óbvia de fazer esse exemplo.

DavidR
fonte
Obrigado, @DavidR. Este é um exemplo interessante quando de fatoRemp(fl)=0 para qualquer l e fl, mas R(fl)= quando flc e R(fl)=0 quando fl=c. Isso mostra que a definição de consistência deve incluir "para qualquerfl"parte.
Leo