Aprendendo regressão ordinal em R?

10

Estou trabalhando em um projeto e preciso de recursos para me atualizar.

O conjunto de dados é de cerca de 35000 observações em 30 variáveis. Cerca da metade das variáveis ​​são categóricas, com algumas possuindo muitos valores possíveis, ou seja, se você dividir as variáveis ​​categóricas em variáveis ​​dummy, terá muito mais que 30 variáveis. Mas ainda provavelmente da ordem de algumas centenas no máximo. (n> p).

A resposta que queremos prever é ordinal com 5 níveis (1,2,3,4,5). Os preditores são uma mistura de contínua e categórica, cerca de metade de cada. Estes são meus pensamentos / planos até agora: 1. Trate a resposta como contínua e execute a regressão linear de baunilha. 2. Execute regressão logística probit e logística nominal e ordinal 3. Use MARS e / ou outro tipo de regressão não linear

Eu estou familiarizado com a regressão linear. MARS é bem descrito por Hastie e Tibshirani. Mas estou perplexo quando se trata de logit / probit ordinal, especialmente com tantas variáveis ​​e um grande conjunto de dados.

O pacote r glmnetcr parece ser minha melhor aposta até agora, mas a documentação dificilmente é suficiente para me levar onde eu preciso estar.

Onde posso aprender mais?

Matt Hall
fonte
Eu sugiro que você adicione a tag R também.
precisa
11
Como essa é uma pergunta sobre o modelo estatístico, você pode acessar o site CrossValidated , mas lembre-se de que é uma prática terrível postar as perguntas de maneira cruzada: você pode formulá-lo para destacar os problemas metodológicos que você estão enfrentando ou migram toda a questão.
Stask
Sem realmente explicar o porquê, o ISL observa (na pág. 137) que a análise discriminante (como LDA, QDA) é mais frequentemente usada do que várias extensões de classe de regressão logística. Pacotes como o LDA penalizado podem, portanto, ser examinados.
MattBagg

Respostas:

6

Um pacote R bastante poderoso para regressão com uma resposta categórica ordinal é o VGAM, no CRAN. A vinheta contém alguns exemplos de regressão ordinal, mas é certo que eu nunca tentei em um conjunto de dados tão grande, então não posso estimar quanto tempo pode levar. Você pode encontrar algum material adicional sobre o VGAM na página do autor . Como alternativa, você pode dar uma olhada no companheiro de Laura Thompson no livro de Agresti, "Categorical Data Analysis". O capítulo 7 do livro de Thompson descreve modelos de logit cumulativos, que são freqüentemente usados ​​com respostas ordinais.

Espero que isto ajude!

GdA
fonte
3

Se você não estiver totalmente familiarizado com a regressão ordinal, tentarei ler o capítulo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) primeiro sobre o tópico - embora não tenha sido escrito para R, o livro é muito bom em transmitir a lógica geral e os "faça" e "não faça".

Como uma pergunta: Quais são exatamente as suas respostas? Se eles são algum tipo de escala, como "bom - ruim", seria bom usar uma regressão linear (pesquisa de mercado faz isso o tempo todo ...), mas se os itens forem mais disjuntos, uma regressão ordinal pode ser melhor . Lembro-me vagamente de que alguns livros sobre modelagem estrutural de equatiotões mencionavam que a regressão linear era superior para boas escalas do que probit-bit.

O problema mais sério pode ser o número de variáveis ​​dummy - algumas centenas de variáveis ​​dummy tornarão a análise lenta, difícil de interpretar e provavelmente instável - existem casos suficientes para cada combinação dummy / dummy?

Christian Sauer
fonte
3

Uma referência padrão escrita da perspectiva das ciências sociais é o livro Limited Dependent Variables, de J Scott Long . É muito mais profundo do que o que Tabachnik sugeriu em outra resposta : Tabachnik é, na melhor das hipóteses, um livro de receitas, com poucas ou nenhuma explicação sobre o "porquê", e parece que você se beneficiaria de descobrir isso com mais detalhes que podem ser encontrados em Long's livro. A regressão ordinal deve ser abordada na maioria dos cursos introdutórios de econometria (o Cross-Section and Panel Data de Wooldridge é um ótimo livro para estudantes de graduação), bem como nos cursos quantitativos de ciências sociais (sociologia, psicologia), embora eu imagine que o último retornará. ao livro de Long.

Dado que o número de variáveis é wa-a-ay menor do que o tamanho da amostra, o pacote de R você deve estar procurando é provavelmente ordinalmais do que glmnetcr. Outra resposta mencionou que você pode encontrar essa funcionalidade em um MASSpacote mais popular .

StasK
fonte