Eu tenho os dados do vinho daqui, que consistem em 11 variáveis numéricas independentes com uma classificação dependente associada a cada entrada com valores entre 0 e 10. Isso torna um ótimo conjunto de dados para usar um modelo de regressão para investigar a relação entre as variáveis e os associados Avaliação. No entanto, a regressão linear seria apropriada ou é melhor usar a regressão logística multinomial / ordenada?
A regressão logística parece melhor, dadas categorias específicas, ou seja, não é uma variável dependente contínua, mas (1) existem 11 categorias (um pouco demais?) E (2) após a inspeção, existem apenas dados para 6-7 dessas categorias, ou seja, o restante 5-4 categorias não têm exemplo no conjunto de dados.
Por outro lado, a regressão linear deve estimar linearmente uma classificação entre 0 e 10, que parece mais próxima do que estou tentando descobrir; no entanto, a variável dependente não é contínua no conjunto de dados.
Qual é a melhor abordagem? Nota: estou usando R para a análise
Edite, abordando alguns dos pontos mencionados nas respostas:
- Não há objetivo comercial, pois isso é realmente para um curso universitário. A tarefa é analisar um conjunto de dados de escolha da maneira que achar melhor.
- A distribuição das classificações parece normal (histograma / qq-plot). Os valores reais no conjunto de dados estão entre 3-8 (mesmo que tecnicamente 0-10).
fonte
Não sou especialista em regressão logística, mas diria que você deseja usar multinomial por causa de sua variável dependente discreta.
Uma regressão linear pode gerar coeficientes que podem ser extrapolados para fora dos limites possíveis da sua variável dependente (ou seja, um aumento da variável independente levaria a uma variável dependente fora do seu limite para o dado coeficiente de regressão).
A regressão multinomial fornecerá as diferentes probabilidades para os diferentes resultados da sua variável dependente (ou seja, o coeficiente da sua regressão fornecerá a você como eles aumentam a probabilidade de obter uma pontuação melhor, sem que a pontuação esteja fora dos limites).
fonte
Outra possibilidade é usar uma floresta aleatória. Há duas maneiras de medir a "importância" de uma variável em uma floresta aleatória:
As florestas aleatórias também são passíveis de um tipo de visualização de dados chamado "gráfico de dependência parcial". Veja este tutorial detalhado para obter mais detalhes.
A dependência parcial e a importância da permutação não são específicas para os modelos de Floresta Aleatória, mas sua popularidade cresceu junto com a popularidade das Florestas Aleatórias, devido à eficiência em computá-las para os modelos de Floresta Aleatória.
fonte