Estou trabalhando em um projeto e estou tendo dificuldades para decidir qual algoritmo escolher regression
. Quero saber em que condições se deve escolher um linear regression
ou Decision Tree regression
ou Random Forest regression
? Existem características específicas dos dados que tomariam a decisão de avançar em direção a um algoritmo específico na árvore mencionada acima? Quais são as características que devo procurar no meu conjunto de dados para tomar a decisão? E há algumas razões que fariam um escolher um decision tree
ou random forest
algoritmo, mesmo se a mesma correção pode ser conseguido através linear regression
?
machine-learning
algorithms
random-forest
linear-regression
decision-trees
machine-learning
predictive-modeling
forecast
r
clustering
similarity
data-mining
dataset
statistics
text-mining
text-mining
data-cleaning
data-wrangling
machine-learning
classification
algorithms
xgboost
data-mining
dataset
dataset
regression
graphs
svm
unbalanced-classes
cross-validation
optimization
hyperparameter
genetic-algorithms
visualization
predictive-modeling
correlation
machine-learning
predictive-modeling
apache-spark
statistics
normalization
apache-spark
map-reduce
r
correlation
confusion-matrix
r
data-cleaning
classification
terminology
dataset
image-classification
machine-learning
regression
apache-spark
machine-learning
data-mining
nlp
parsing
machine-learning
dimensionality-reduction
visualization
clustering
multiclass-classification
evaluation
unsupervised-learning
machine-learning
machine-learning
data-mining
supervised-learning
unsupervised-learning
machine-learning
data-mining
classification
statistics
predictive-modeling
data-mining
clustering
python
pandas
machine-learning
dataset
data-cleaning
data
bigdata
software-recommendation
Jason Donnald
fonte
fonte
Respostas:
Deixe-me explicar usando alguns exemplos para uma intuição clara:
A regressão linear é um modelo linear, o que significa que funciona muito bem quando os dados têm uma forma linear. Mas, quando os dados têm uma forma não linear, um modelo linear não pode capturar os recursos não lineares.
Portanto, nesse caso, você pode usar as árvores de decisão, que fazem um trabalho melhor na captura da não linearidade nos dados, dividindo o espaço em subespaços menores, dependendo das perguntas feitas.
Acho que a resposta do Quora aqui faria um trabalho melhor do que eu, ao explicar a diferença entre eles e suas aplicações. Deixe-me citar isso para você:
fonte
when the data has a non-linear shape, then a linear model cannot capture the non-linear features
Este é um equívoco comum. Antes de tudo, uma regressão linear simples pode modelar até as séries harmônicas stats.stackexchange.com/questions/60500/… . Em segundo lugar, a interação de recursos pode ser introduzida e, é claro, há um modelo linear generalizado onde é introduzida uma função não linear nos termos lineares (por exemplo, a regressão logística).Até onde eu sei, não há uma regra para dizer qual algoritmo funciona para qual conjunto de dados. Apenas certifique-se de que seu conjunto de dados e variáveis de interesse cumpram as pré-suposições de execução de cada algoritmo e tente. Por exemplo, a regressão linear tem algumas pré-suposições, como normalidade dos resuduais, homoscedasticidade (a variabilidade na variável resposta é a mesma em todos os níveis da variável explicativa) e assim por diante. Basta verificar essas variáveis e experimentar o algoritmo.
Você pode usar um software de apontar e clicar para ver os resultados sem se envolver na configuração de código e parâmetro. Se você é um usuário R, o pacote rattle será uma ferramenta muito útil nesse estágio. Você faz seu trabalho no modo apontar e clicar e tem acesso ao código por trás dele.
fonte