Estou trabalhando em um projeto e preciso de recursos para me atualizar.
O conjunto de dados é de cerca de 35000 observações em 30 variáveis. Cerca da metade das variáveis são categóricas, com algumas possuindo muitos valores possíveis, ou seja, se você dividir as variáveis categóricas em variáveis dummy, terá muito mais que 30 variáveis. Mas ainda provavelmente da ordem de algumas centenas no máximo. (n> p).
A resposta que queremos prever é ordinal com 5 níveis (1,2,3,4,5). Os preditores são uma mistura de contínua e categórica, cerca de metade de cada. Estes são meus pensamentos / planos até agora: 1. Trate a resposta como contínua e execute a regressão linear de baunilha. 2. Execute regressão logística probit e logística nominal e ordinal 3. Use MARS e / ou outro tipo de regressão não linear
Eu estou familiarizado com a regressão linear. MARS é bem descrito por Hastie e Tibshirani. Mas estou perplexo quando se trata de logit / probit ordinal, especialmente com tantas variáveis e um grande conjunto de dados.
O pacote r glmnetcr parece ser minha melhor aposta até agora, mas a documentação dificilmente é suficiente para me levar onde eu preciso estar.
Onde posso aprender mais?
fonte
Respostas:
Sugiro este tutorial sobre logit ordenado: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Ele mostra o uso de
polr
noMASS
pacote e também explica as suposições e como interpretar os resultados.fonte
Um pacote R bastante poderoso para regressão com uma resposta categórica ordinal é o VGAM, no CRAN. A vinheta contém alguns exemplos de regressão ordinal, mas é certo que eu nunca tentei em um conjunto de dados tão grande, então não posso estimar quanto tempo pode levar. Você pode encontrar algum material adicional sobre o VGAM na página do autor . Como alternativa, você pode dar uma olhada no companheiro de Laura Thompson no livro de Agresti, "Categorical Data Analysis". O capítulo 7 do livro de Thompson descreve modelos de logit cumulativos, que são freqüentemente usados com respostas ordinais.
Espero que isto ajude!
fonte
Se você não estiver totalmente familiarizado com a regressão ordinal, tentarei ler o capítulo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) primeiro sobre o tópico - embora não tenha sido escrito para R, o livro é muito bom em transmitir a lógica geral e os "faça" e "não faça".
Como uma pergunta: Quais são exatamente as suas respostas? Se eles são algum tipo de escala, como "bom - ruim", seria bom usar uma regressão linear (pesquisa de mercado faz isso o tempo todo ...), mas se os itens forem mais disjuntos, uma regressão ordinal pode ser melhor . Lembro-me vagamente de que alguns livros sobre modelagem estrutural de equatiotões mencionavam que a regressão linear era superior para boas escalas do que probit-bit.
O problema mais sério pode ser o número de variáveis dummy - algumas centenas de variáveis dummy tornarão a análise lenta, difícil de interpretar e provavelmente instável - existem casos suficientes para cada combinação dummy / dummy?
fonte
Uma referência padrão escrita da perspectiva das ciências sociais é o livro Limited Dependent Variables, de J Scott Long . É muito mais profundo do que o que Tabachnik sugeriu em outra resposta : Tabachnik é, na melhor das hipóteses, um livro de receitas, com poucas ou nenhuma explicação sobre o "porquê", e parece que você se beneficiaria de descobrir isso com mais detalhes que podem ser encontrados em Long's livro. A regressão ordinal deve ser abordada na maioria dos cursos introdutórios de econometria (o Cross-Section and Panel Data de Wooldridge é um ótimo livro para estudantes de graduação), bem como nos cursos quantitativos de ciências sociais (sociologia, psicologia), embora eu imagine que o último retornará. ao livro de Long.
Dado que o número de variáveis é wa-a-ay menor do que o tamanho da amostra, o pacote de R você deve estar procurando é provavelmente
ordinal
mais do queglmnetcr
. Outra resposta mencionou que você pode encontrar essa funcionalidade em umMASS
pacote mais popular .fonte