Gostaria de saber se existe algum algoritmo que possa fazer classificação e regressão ao mesmo tempo. Por exemplo, eu gostaria de deixar o algoritmo aprender um classificador e, ao mesmo tempo, em cada rótulo, ele também aprende um alvo contínuo. Assim, para cada exemplo de treinamento, ele possui um rótulo categórico e um valor contínuo.
Eu poderia treinar um classificador primeiro e depois treinar um regressor em cada rótulo, mas só estou pensando que, se houver um algoritmo que possa fazer as duas coisas, seria maravilhoso.
Respostas:
O problema que você está descrevendo pode ser resolvido por regressão de classe latente , ou regressão em cluster , ou é uma mistura de extensão de modelos lineares generalizados que são todos membros de uma família mais ampla de modelos de mistura finita ou modelos de classe latente .
Não é uma combinação de classificação (aprendizado supervisionado) e regressão em si , mas de agrupamento (aprendizado não supervisionado) e regressão. A abordagem básica pode ser estendida para que você preveja a associação da classe usando variáveis concomitantes, o que a torna ainda mais próxima do que você está procurando. De fato, o uso de modelos de classes latentes para classificação foi descrito por Vermunt e Magidson (2003), que o recomendam para esse objetivo.
Regressão de classe latente
Essa abordagem é basicamente um modelo de mistura finita (ou análise de classe latente ) na forma
onde é um vetor de todos os parâmetros ef k são componentes da mistura parametrizados por ϑ k , e cada componente aparece com proporções latentes π k . Portanto, a ideia é que a distribuição de seus dados seja uma mistura de componentes K , cada um que possa ser descrito por um modelo de regressão f k aparecendo com probabilidade π k . Modelos de mistura finita são muito flexíveis na escolha de f kψ = ( π , ϑ ) fk ϑk πk K fk πk fk componentes e pode ser estendido a outras formas e misturas de diferentes classes de modelos (por exemplo, misturas de analisadores de fatores).
Previsão da probabilidade de participação em turmas com base em variáveis concomitantes
O modelo simples de regressão de classe latente pode ser estendido para incluir variáveis concomitantes que preveem a participação na turma (Dayton e Macready, 1998; ver também: Linzer e Lewis, 2011; Grun e Leisch, 2008; McCutcheon, 1987; Hagenaars e McCutcheon, 2009) , nesse caso, o modelo se torna
Prós e contras
O que é interessante nisso é que é uma técnica de clustering baseada em modelo , o que significa que você ajusta modelos aos seus dados e esses modelos podem ser comparados usando métodos diferentes para comparação de modelos (testes de razão de verossimilhança, BIC, AIC etc.) ), portanto, a escolha do modelo final não é tão subjetiva quanto na análise de cluster em geral. Travar o problema em dois problemas independentes de agrupamento e, em seguida, aplicar a regressão pode levar a resultados tendenciosos e estimar tudo em um único modelo permite que você use seus dados com mais eficiência.
A desvantagem é que você precisa fazer uma série de suposições sobre o seu modelo e pensar um pouco, por isso não é um método de caixa preta que simplesmente pegue os dados e retorne algum resultado sem incomodá-lo. Com dados ruidosos e modelos complicados, você também pode ter problemas de identificação de modelo. Além disso, como esses modelos não são tão populares, não são amplamente implementados (você pode verificar ótimos pacotes R
flexmix
epoLCA
, tanto quanto sei, também são implementados no SAS e no Mplus em certa medida), o que o torna dependente de software.Exemplo
Abaixo, você pode ver um exemplo desse modelo a partir da combinação de vinheta da
flexmix
biblioteca (Leisch, 2004; Grun e Leisch, 2008) de dois modelos de regressão para dados inventados.É visualizado nos seguintes gráficos (as formas de pontos são as classes verdadeiras, as cores são as classificações).
Referências e recursos adicionais
Para mais detalhes, consulte os seguintes livros e documentos:
fonte