Estou lutando para encontrar um método para reduzir o número de categorias em dados nominais ou ordinais.
Por exemplo, digamos que eu queira criar um modelo de regressão em um conjunto de dados que possua vários fatores nominais e ordinais. Embora não tenha problemas com esta etapa, frequentemente encontro situações em que um recurso nominal está sem observações no conjunto de treinamento, mas existe posteriormente no conjunto de dados de validação. Isso naturalmente leva a um erro quando o modelo é apresentado com (até agora) casos não vistos. Outra situação em que eu gostaria de combinar categorias é simplesmente quando há muitas categorias com poucas observações.
Então, minhas perguntas são:
- Embora eu saiba que talvez seja melhor combinar muitas categorias nominais (e ordinais) com base nas informações prévias do mundo real que elas representam, existem métodos sistemáticos (de
R
preferência pacotes) disponíveis? - Que diretrizes e sugestões você faria em relação aos limites de corte e assim por diante?
- Quais são as soluções mais populares na literatura?
- Existem outras estratégias além da combinação de pequenas categorias nominais a uma nova categoria "OUTROS"?
Por favor, sinta-se à vontade para entrar em contato se tiver outras sugestões.
Respostas:
Esta é uma resposta à sua segunda pergunta.
Suspeito que a abordagem correta para esse tipo de decisão seja determinada em grande parte por normas disciplinares e pelas expectativas do público-alvo do seu trabalho. Como cientista social, frequentemente trabalho com dados de pesquisas (ou semelhantes a pesquisas) e sempre tento equilibrar lógicas substantivas e orientadas por dados quando colapso escalas ordinais ou variáveis categóricas. Em outras palavras, farei o possível para considerar quais combinações de itens "combinam" em termos de substância e distribuição de respostas antes de recolher os itens.
Aqui está um exemplo recente de uma pergunta de pesquisa específica (ordinal) que envolvia uma escala de frequência de cinco pontos:
Não tenho os dados disponíveis para mim no momento, mas os resultados foram fortemente distorcidos no final "nunca" da escala. Como resultado, eu e meu co-autor optamos por agrupar as respostas em dois grupos: "Uma vez por mês ou mais" e "Menos de uma vez por mês". A variável (binária) resultante foi distribuída de maneira mais uniforme e refletiu uma distinção significativa em termos práticos: como muitos clubes e organizações não se reúnem mais de uma vez por mês, há boas razões para acreditar que as pessoas que participam de reuniões pelo menos com frequência são membros "ativos" de tais grupos, enquanto aqueles que freqüentam com menos frequência (ou nunca) são "inativos".
Então, na minha experiência, essas decisões são pelo menos tanto arte quanto ciência. Dito isto, também costumo tentar fazer isso antes de ajustar qualquer modelo, pois trabalho em uma disciplina em que qualquer outra coisa é vista (negativamente) como mineração de dados e altamente não científica (momentos divertidos!).
Com isso em mente, pode ajudar se você puder falar um pouco mais sobre que tipo de público você tem em mente para este trabalho. Também seria do seu interesse revisar alguns livros didáticos de metodologia de destaque em seu campo, pois eles costumam esclarecer o que passa por um comportamento "normal" entre uma determinada comunidade de pesquisa.
fonte
Os tipos de abordagens discutidas por Ashaw podem levar a uma metodologia relativamente mais sistemática. Mas também acho que por sistemático você quer dizer algorítmico. Aqui, as ferramentas de mineração de dados podem preencher uma lacuna. Por um lado, há o procedimento de detecção automatizada de interação por qui-quadrado (CHAID) embutido no módulo Árvore de Decisão do SPSS; de acordo com as regras definidas pelo usuário, pode recolher categorias ordinais ou nominais de variáveis preditoras quando mostrarem valores semelhantes na variável de resultado (seja contínua ou nominal). Estas regras pode depender do tamanho dos grupos sendo recolhido ou que está sendo criado pelo colapso, ou no p-valores dos testes estatísticos relacionados. Acredito que alguns programas de classificação e árvore de regressão (CART) podem fazer as mesmas coisas. Outros entrevistados devem poder falar sobre funções semelhantes desempenhadas pela rede neural ou outros aplicativos fornecidos por vários pacotes de mineração de dados.
fonte