Limite teórico - erro de regressão

7

A taxa de erro de Bayes é um limite teórico que determina a menor taxa de erro possível para um problema de classificação, dados alguns dados. Eu queria saber se existe um conceito equivalente para o caso de algoritmos de regressão. Meu objetivo é determinar a que distância está o erro do meu algoritmo de regressão desse limite teórico, como uma maneira de avaliar a que distância estou da melhor solução possível. Existe alguma maneira de obter um limite do menor erro de regressão para um determinado conjunto de dados?

Pablo Suau
fonte
11
Esta é uma grande pergunta. Meu pensamento inicial foi o quadrado R, que indica quanto da variação é explicada pela regressão para um determinado conjunto de recursos. Como a taxa de erro de Bayes fornece um limite estatístico mais baixo do erro possível de um determinado problema de classificação E a escolha de recursos associados. Embora seja difícil calcular (estimar) a taxa de erro de Bayes, ela possui grande utilidade universal para qualquer classificador, como você aponta. Então comecei a pensar em regressão bayesiana e quase parece que você está procurando a perda de Bayes.
AN6U5
11
Obrigado pela sua resposta. O cálculo do R-quadrado requer previsões, por isso estou me perguntando se um limite teórico do R-quadrado pode ser estimado. Li um artigo sobre a estimativa da taxa de erro de Bayes por meio de um conjunto de classificadores; talvez algo semelhante possa ser aplicado ao quadrado-R (apenas um pensamento aleatório aqui). Não estou familiarizado com a regressão bayesiana. Vou verificar isso.
Pablo Suau

Respostas:

2

Sei que essa pergunta foi feita há mais de um ano, mas acho que uma possibilidade é usar a decomposição de variação de polarização para calcular um limite mais baixo da taxa de erro.

Essencialmente, a taxa de erro é escrita como a soma de três termos, o viés, a variação e o erro irredutível. Uma boa fonte para aprender sobre esses termos é Uma introdução ao aprendizado estatístico .

Suponha que a verdadeira função ( ) esteja dentro da família de funções que nosso modelo de aprendizado de máquina é capaz de ajustar e aceite o limite conforme a quantidade de dados de treinamento que temos vai para o infinito. Então, se nosso modelo de aprendizado de máquina tiver um número finito de parâmetros, o viés e a variação serão zero. Portanto, o erro real será simplesmente igual ao erro irredutível.f(x)

Como exemplo, suponha que nossos dados verdadeiros sejam lineares com o ruído gaussiano: . Um dos estimadores ideais é obviamente a regressão linear, , e, à medida que adicionamos mais exemplos de treinamento, os coeficientes estimados e vai se aproximar de e , respectivamente. Portanto, o melhor erro (assumindo a perda ao quadrado) que poderíamos esperar seria igual a , o erro inerente / ruído irredutível associado à própria geração de dadosyN(a+bx,σ2)y^=a^+b^xa^b^abσ2

Na prática, calcular o erro irredutível é difícil (impossível?), Pois requer conhecimento do verdadeiro processo de geração dos dados. Porém, essa crítica também é aplicável ao erro de Bayes, pois exige conhecimento das verdadeiras probabilidades de classe.

vbox
fonte
Obrigado pela resposta. Eu acho que isso faz muito sentido.
Pablo Suau
0

Sim, isso seria a soma dos quadrados das distâncias da variável de resposta da linha de regressão verdadeira ou real (desde que você a conheça).

GeneX
fonte