Assumirei que seu questionário deve ser considerado como uma escala unidimensional (caso contrário, o alfa de Cronbach não faz muito sentido). Vale a pena executar uma análise fatorial exploratória para verificar isso. Também permitirá que você veja como os itens se relacionam com a balança (ou seja, através de suas cargas).
As etapas básicas para validar seus itens e sua escala devem incluir:
- um relatório completo sobre as estatísticas básicas dos itens (alcance, quartis, tendência central, efeitos de teto e piso, se houver);
- verificar a consistência interna como você fez com seu alfa (melhor, forneça intervalos de confiança de 95%, porque depende da amostra);
- descreva sua medida resumida (por exemplo, pontuação total ou média, também conhecida como pontuação da escala) com estatísticas usuais (histograma + densidade, quantis etc.);
- verifique suas respostas sumárias em relação às covariáveis específicas que deveriam estar relacionadas à construção que você está avaliando - isso é chamado de validade de grupo conhecido;
- se possível, verifique suas respostas sumárias em relação a instrumentos conhecidos que pretendem medir a mesma construção ( validade simultânea ou convergente).
Se sua escala não for unidimensional, essas etapas deverão ser executadas para cada subescala e você também poderá fatorar a matriz de correlação de seus fatores para avaliar a estrutura fatorial de segunda ordem (ou usar modelagem de equações estruturais ou análise fatorial confirmatória ou o que você quiser). Você também pode avaliar a validade convergente e discriminante usando o dimensionamento com várias características ou a modelagem com vários métodos com vários atributos (com base nas correlações entre itens dentro e entre as escalas) ou, novamente, SEMs.
Então, eu diria que a Teoria da Resposta ao Item não ajudaria muito, a menos que você esteja interessado em encurtar o questionário, filtrar alguns itens que mostram o funcionamento diferenciado do item ou usar o teste em algum tipo de teste adaptativo ao computador .
De qualquer forma, o modelo Rasch é para itens binários. Para itens encomendados politômicos, os modelos mais usados são:
- o modelo de resposta graduada
- o modelo de crédito parcial
- o modelo em escala de classificação.
Apenas os dois últimos são da família Rasch e usam basicamente uma formulação de probabilidades adjacente, com a idéia de que o sujeito precisa "ultrapassar" vários limites para endossar uma determinada categoria de resposta. A diferença entre esses dois modelos é que o PCM não impõe que os limites sejam igualmente espaçados na escala teta ( habilidade ou localização do sujeito na característica latente). O modelo de resposta graduada se baseia em uma formulação de probabilidades cumulativas. Esteja ciente de que todos esses modelos supõem que a escala é unidimensional; ou seja, há apenas uma característica latente. Existem suposições adicionais como, por exemplo, independência local (ou seja, as correlações entre respostas são explicadas pela variação na escala de habilidades).
De qualquer forma, você vai encontrar uma documentação muito completa e pistas úteis para aplicar métodos psicométricos em R no volume 20 do Journal of Statistical Software: Especial Volume: Psychometrics em R . Basicamente, os pacotes R mais interessantes que eu uso no meu trabalho diário são: ltm , eRm , psych , psy . Outros são referenciados na visão da tarefa CRAN Psychometrics . Outros recursos de interesse são:
Uma boa revisão sobre o uso de FA vs. IRT no desenvolvimento de escalas pode ser encontrada em Construção e avaliação de escalas na prática: Uma revisão da análise fatorial versus aplicações da teoria de resposta a itens , por dez Holt et al. (Teste Psicológico e Modelagem de Avaliação (2010) 52 (3): 272-297).
Validar um questionário significa provar que ele mede o que deve medir. Então, eu diria que essa não é principalmente uma questão estatística e não pode ser respondida sem conhecer o conteúdo específico do seu questionário. O alfa de Cronbach não se refere à validade, mas à consistência interna, que está um pouco relacionada à confiabilidade (ou alguém pode dizer que é confiabilidade, presumindo que suas perguntas sejam intercambiáveis - mas não são).
Então, o que você poderia fazer para validar seu questionário? Você pode estudar quais processos psicológicos dão origem a padrões específicos de resultados (por exemplo, tentando induzir tais padrões com manipulações experimentais ou usando um procedimento de pensar em voz alta ["análise de protocolo", Ericsson & Simon, 1992]). Ou compare alguns grupos contrastantes (por exemplo, pacientes com controles) que devem ter pontuações diferentes. Ou correlacione-o com um critério externo que deve ser correlacionado com a característica que você está medindo. Ou meça a característica pelo Psychoscope (TM) e use-a como critério.
As outras respostas são mais úteis para apontar o que você provavelmente pode fazer de maneira realista - embora a maior parte não seja, estritamente falando, relativa à validade (exceto as referências de Chi à "validade de grupo conhecida" e validade externa).
Veja também Markus & Borsboom (2013) para uma abordagem moderna da validade (esta e algumas outras páginas úteis de refs @ Borsboom ).
fonte