Eu estava aconselhando um estudante de pesquisa com um problema específico e estava ansioso para receber a opinião de outras pessoas neste site.
Contexto:
O pesquisador possuía três tipos de variáveis preditoras. Cada tipo continha um número diferente de variáveis preditoras. Cada preditor era uma variável contínua:
- Social: S1, S2, S3, S4 (ou seja, quatro preditores)
- Cognitivo: C1, C2 (ou seja, dois preditores)
- Comportamental: B1, B2, B3 (ou seja, três preditores)
A variável resultado também foi contínua. A amostra incluiu cerca de 60 participantes.
O pesquisador quis comentar sobre que tipo de preditores eram mais importantes na explicação da variável resultado. Isso estava relacionado a preocupações teóricas mais amplas sobre a importância relativa desses tipos de preditores.
Questões
- Qual é uma boa maneira de avaliar a importância relativa de um conjunto de preditores em relação a outro conjunto?
- Qual é uma boa estratégia para lidar com o fato de que existem diferentes números de preditores em cada conjunto?
- Que advertências na interpretação você sugere?
Qualquer referência a exemplos ou discussão de técnicas também seria bem-vinda.
fonte
Sugestões
Ressalvas
fonte
Importância
A primeira coisa a fazer é operacionalizar a 'importância dos preditores'. Suponho que isso signifique algo como "sensibilidade do resultado médio às mudanças nos valores dos preditores". Como seus preditores estão agrupados, a sensibilidade do resultado médio para grupos de preditores é mais interessante do que uma variável por análise de variáveis. Deixo em aberto se a sensibilidade é entendida causalmente. Essa questão é abordada mais tarde.
Três versão de importância
Muita variação explicou : Eu estou supondo que o primeiro ponto de escala dos psicólogos seja provavelmente uma decomposição de variação, levando a uma medida de quanta variação de resultado é explicada pela estrutura de variância-covariância em cada grupo de preditores. Não sendo um experimentalista, não posso sugerir muita coisa aqui, exceto para observar que todo o conceito de 'variação explicada' é um pouco infundado para o meu gosto, mesmo sem a questão 'qual soma de quais quadrados'. Outros são bem-vindos a discordar e desenvolvê-lo ainda mais.
Grandes coeficientes padronizados : o SPSS oferece o beta (nomeado incorretamente) para medir o impacto de maneira comparável entre variáveis. Existem várias razões para não usar isso, discutidas no livro de regressão de Fox, aqui e em outros lugares. Todos se aplicam aqui. Ele também ignora a estrutura do grupo.
Por outro lado, imagino que se possa padronizar preditores em grupos e usar informações de covariância para julgar o efeito de um movimento de desvio padrão em todos eles. Pessoalmente, o lema: "se algo não vale a pena fazer, não vale a pena fazer bem" diminui meu interesse em fazê-lo.
Grandes efeitos marginais : A outra abordagem é permanecer na escala das medições e calcular efeitos marginais entre os pontos de amostra cuidadosamente escolhidos. Como você está interessado em grupos, é útil escolher pontos para variar grupos de variáveis em vez de grupos únicos, por exemplo, manipular as duas variáveis cognitivas de uma só vez. (Muitas oportunidades para terrenos legais aqui). Artigo básico aqui . O
effects
pacote em R fará isso muito bem.Existem duas advertências aqui:
Se você fizer isso, deve observar que não está escolhendo duas variáveis cognitivas que, embora individualmente plausíveis, por exemplo, medianas, estejam conjuntamente longe de qualquer observação do sujeito.
Algumas variáveis nem são manipuláveis teoricamente, portanto a interpretação dos efeitos marginais como causais é mais delicada, embora ainda útil.
Números diferentes de preditores
Os problemas surgem devido à estrutura de covariância das variáveis agrupadas, com a qual normalmente tentamos não nos preocupar, mas essa tarefa deveria.
Em particular, ao calcular efeitos marginais (ou coeficientes padronizados para esse assunto) em grupos, em vez de variáveis únicas, a maldição da dimensionalidade para grupos maiores facilita as comparações entre regiões onde não há casos. Mais preditores em um grupo levam a um espaço mais escassamente povoado; portanto, qualquer medida de importância dependerá mais das suposições do modelo e menos das observações (mas não dirá isso ...). Mas esses são os mesmos problemas que na fase de ajuste do modelo realmente. Certamente os mesmos que surgiriam em uma avaliação de impacto causal baseada em modelo.
fonte
Um método é combinar os conjuntos de variáveis em variáveis de sheaf. Este método tem sido amplamente utilizado na sociologia e áreas afins.
Refs:
Whitt, Hugh P. 1986. "O coeficiente de feixe: uma abordagem simplificada e expandida". Social Science Research 15: 174-189.
fonte