A taxa de erro de Bayes é um limite teórico que determina a menor taxa de erro possível para um problema de classificação, dados alguns dados. Eu queria saber se existe um conceito equivalente para o caso de algoritmos de regressão. Meu objetivo é determinar a que distância está o erro do meu algoritmo de regressão desse limite teórico, como uma maneira de avaliar a que distância estou da melhor solução possível. Existe alguma maneira de obter um limite do menor erro de regressão para um determinado conjunto de dados?
regression
linear-regression
Pablo Suau
fonte
fonte
Respostas:
Sei que essa pergunta foi feita há mais de um ano, mas acho que uma possibilidade é usar a decomposição de variação de polarização para calcular um limite mais baixo da taxa de erro.
Essencialmente, a taxa de erro é escrita como a soma de três termos, o viés, a variação e o erro irredutível. Uma boa fonte para aprender sobre esses termos é Uma introdução ao aprendizado estatístico .
Suponha que a verdadeira função ( ) esteja dentro da família de funções que nosso modelo de aprendizado de máquina é capaz de ajustar e aceite o limite conforme a quantidade de dados de treinamento que temos vai para o infinito. Então, se nosso modelo de aprendizado de máquina tiver um número finito de parâmetros, o viés e a variação serão zero. Portanto, o erro real será simplesmente igual ao erro irredutível.f(x)
Como exemplo, suponha que nossos dados verdadeiros sejam lineares com o ruído gaussiano: . Um dos estimadores ideais é obviamente a regressão linear, , e, à medida que adicionamos mais exemplos de treinamento, os coeficientes estimados e vai se aproximar de e , respectivamente. Portanto, o melhor erro (assumindo a perda ao quadrado) que poderíamos esperar seria igual a , o erro inerente / ruído irredutível associado à própria geração de dadosy∼N(a+bx,σ2) y^=a^+b^x a^ b^ a b σ2
Na prática, calcular o erro irredutível é difícil (impossível?), Pois requer conhecimento do verdadeiro processo de geração dos dados. Porém, essa crítica também é aplicável ao erro de Bayes, pois exige conhecimento das verdadeiras probabilidades de classe.
fonte
Sim, isso seria a soma dos quadrados das distâncias da variável de resposta da linha de regressão verdadeira ou real (desde que você a conheça).
fonte