Eu estou tentando entender a prova de que os retângulos paralelos do eixo podem ser aprendidos no caso realizável. Isso significa que, dado com dados suficientes, podemos encontrar uma função tal que \ mathbb {P} \ left [\ text {error}> \ epsilon \ right] \ leq \ delta Aqui, o erro pode ser visto como o probabilidade de cometer um erro com a função escolhida h .
Agora, para retângulos paralelos ao eixo (na classificação binária), o argumento usual é o seguinte: seja o retângulo verdadeiro e seja o menor retângulo que contém os exemplos positivos, claramente , consideramos as quatro faixas retangulares entre e . Claramente, se todos eles têm probabilidade , a probabilidade de cometer um erro é menor que , portanto, podemos assumir que pelo menos um tenha probabilidade de cometer um erro .
Para uma faixa desse tipo, a probabilidade de classificar corretamente todos os exemplos de treinamento é no máximo , e, assim, vincular uma união a todas as faixas, obtemos que a probabilidade de classificar tudo corretamente é menor que e, com um pouco de álgebra, resulta que a complexidade da amostra é .
Aqui está um pdf que explica um pouco mais detalhadamente, com algumas fotos, eu apenas tive que condensar o argumento o máximo possível para encaixá-lo aqui.
Minha pergunta é: por que temos que considerar as quatro faixas retangulares separadamente, por que não podemos simplesmente dizer que a probabilidade da região entre e deve ser maior que (porque, caso contrário, terminamos), e assim, usando o mesmo argumento, chegaríamos ao melhor limite ?
Desculpe pela longa pergunta e agradeço antecipadamente.
fonte
Respostas:
A pergunta é um pouco vaga, mas parece que o que você quer argumentar é o seguinte: Seja o conceito de aprender e considere qualquer retângulo que cubra um -fraction de . Então, com alguma probabilidade, conterá .R R∗⊂R (1−ϵ) R R′ R∗
O problema disso é que a probabilidade específica depende da escolha específica de . Acho que o que você está confuso é que deseja que o um bom desempenho em exemplos invisíveis . Por construção, classificará corretamente todos os dados de treinamento. O evento ruim é, na verdade, que todos os dados de treinamento estão concentrados em um retângulo muito pequeno; isso acontece com probabilidade, no máximo, no caso de uma das tiras não ser observada em todos os exemplos de treinamento.R∗ R′ R′
fonte
hmm ... bem, na prova que você mencionou, extraímos pontos (x, y) de alguma distribuição D e verificamos se realmente caem em um quadrado. Ou seja, escolhemos o mesmo para cada limite (max x, min x, max y, min y). Agora, se você tinha um círculo, não pode simplesmente fazer isso - você precisa escolher um delta para um raio, e o raio é uma função das coordenadas. Isso tornará a prova mais complicada.δ
Se você optar por polígonos não côncavos - deve ficar muito mais difícil.
fonte