O que significa "linha de base" no contexto de aprendizado de máquina e ciência de dados?
Alguém me escreveu:
Dica: Uma linha de base apropriada fornecerá um RMSE de aproximadamente 200.
Eu não entendo isso. Ele quer dizer que, se meu modelo preditivo nos dados de treinamento tiver um RMSE abaixo de 500, é bom?
E o que poderia ser uma "abordagem de linha de base"?
Uma linha de base é um método que usa heurísticas, estatísticas simples de resumo, aleatoriedade ou aprendizado de máquina para criar previsões para um conjunto de dados. Você pode usar essas previsões para medir o desempenho da linha de base (por exemplo, precisão) - essa métrica será a que você compara qualquer outro algoritmo de aprendizado de máquina.
Em mais detalhes:
Um algoritmo de aprendizado de máquina tenta aprender uma função que modela o relacionamento entre os dados de entrada (recurso) e a variável de destino (ou rótulo). Ao testá-lo, você normalmente mede o desempenho de uma maneira ou de outra. Por exemplo, seu algoritmo pode ter 75% de precisão. Mas o que isso significa? Você pode inferir esse significado comparando com o desempenho de uma linha de base.
As linhas de base típicas incluem aquelas suportadas pelos estimadores "fictícios" do scikit-learn :
Linhas de base de classificação :
Isso é útil para métricas que avaliam uma classe não majoritária.
Linhas de base de regressão :
Em geral, você deseja que sua abordagem supere as linhas de base que você selecionou. No exemplo acima, você deseja que sua precisão de 75% seja maior do que qualquer linha de base executada nos mesmos dados.
Por fim, se você estiver lidando com um domínio específico de aprendizado de máquina (como sistemas de recomendação), normalmente escolherá linhas de base que são abordagens atuais de ponta (SoTA) - já que geralmente você deseja demonstrar que seu abordagem faz melhor do que estes. Por exemplo, ao avaliar um novo algoritmo de filtragem colaborativo, você pode compará-lo à fatoração matricial - que por si só é um algoritmo de aprendizado, mas agora é uma linha de base popular, pois tem sido tão bem-sucedida na pesquisa de sistemas de recomendação.
fonte
Como temos muitos algoritmos de aprendizado de máquina, precisamos saber qual o algoritmo ML mais adequado para o nosso problema. Isso será identificado pelo algoritmo Baseline Prediction,
Um algoritmo de previsão de linha de base fornece um conjunto de previsões que você pode avaliar como faria com qualquer previsão do seu problema, como precisão de classificação ou RMSE.
As pontuações desses algoritmos fornecem o ponto de comparação necessário ao avaliar todos os outros algoritmos de aprendizado de máquina no seu problema.
para mais informações, temos um blog muito bom sobre ML: O que significa "linha de base" no contexto do aprendizado de máquina?
fonte