Estou desenvolvendo empiricamente um questionário e usarei números arbitrários neste exemplo para ilustrar. Para contextualizar, estou desenvolvendo um questionário psicológico destinado a avaliar padrões de pensamento comumente identificados em indivíduos com transtornos de ansiedade. Um item pode se parecer com " Preciso verificar o forno repetidamente, porque não tenho certeza se está desligado ".
Tenho 20 perguntas (Likert de 5 pontos) que podem ser compostas por um ou dois fatores (observe que, na realidade, tenho mais de 200 perguntas, compostas por 10 escalas, e cada escala pode ser composta por dois fatores). Estou disposto a apagar cerca de metade dos itens, deixando 10 perguntas sobre um dos dois fatores.
Estou familiarizado com a análise fatorial exploratória (AFE), consistência interna (alfa de Cronbach) e curvas de característica de item na teoria de resposta ao item (TRI). Eu posso ver como eu usaria qualquer um desses métodos para determinar quais itens são os "piores" em uma única escala. Compreendo que cada método também responda a perguntas diferentes, embora possam levar a resultados semelhantes e não tenho certeza de qual "pergunta" é mais importante.
Antes de começarmos, vamos ter certeza de que sei o que estou fazendo com cada um desses métodos individualmente.
Usando o EFA, eu identificaria o número de fatores e removeria os itens que carregam menos (digamos <0,30) em seus respectivos fatores ou que carregam substancialmente vários fatores.
Usando consistência interna, eu removia itens com o pior "alfa se o item for excluído". Eu poderia fazê-lo assumindo um fator na minha escala ou depois de um EFA inicial para identificar o número de fatores e, posteriormente, executar meu alfa para cada fator.
Usando o IRT, eu removia itens que não avaliam o fator de interesse nas opções de resposta (5 Likert). Eu estaria olhando as curvas características dos itens. Basicamente, eu estaria procurando uma linha em um ângulo de 45 graus, indo da opção 1 na escala Likert até 5 ao longo da pontuação latente. Eu poderia fazê-lo assumindo um fator ou depois de um
EFA inicial para identificar o número de fatores e, posteriormente, executar as curvas para cada fator.
Não tenho certeza de qual desses métodos usar para identificar melhor quais itens são os "piores". Eu uso o pior em um sentido amplo, de modo que o item seja prejudicial à medida, seja em termos de confiabilidade ou validade, os quais são igualmente importantes para mim. Presumivelmente, posso usá-los em conjunto, mas não sei ao certo como.
Se eu fosse em frente com o que sei agora e desse o meu melhor, faria o seguinte:
- Faça um EFA para identificar o número de fatores. Exclua também itens com cargas ruins em seus respectivos fatores, pois não quero itens com carga ruim, independentemente de como seriam em outras análises.
- Faça o IRT e remova também os itens defeituosos julgados por essa análise, se houver algum do EFA.
- Simplesmente relate o Alpha de Cronbach e não use essa métrica como um meio de excluir itens.
Qualquer orientação geral seria muito apreciada!
Aqui também está uma lista de perguntas específicas que você talvez possa responder:
Qual é a diferença prática entre remover itens com base em cargas fatoriais e remover itens com base no alfa de Chronbach (assumindo que você use o mesmo layout de fator para as duas análises)?
O que devo fazer primeiro? Supondo que eu pratico EFA e TRI com um fator e ambos identifiquem itens diferentes que devem ser removidos, que análise deve ter prioridade?
Não estou decidido a fazer todas essas análises, apesar de relatar o alfa de Chronbach independentemente. Eu sinto que fazer apenas IRT deixaria algo faltando, e da mesma forma apenas para EFA.
Respostas:
Não tenho citações, mas aqui está o que eu sugiro:
Zeroth: se possível, divida os dados em um conjunto de treinamento e teste.
Primeiro faça EFA. Veja várias soluções para ver quais fazem sentido, com base no seu conhecimento das perguntas. Você precisaria fazer isso antes do alfa de Cronbach ou não saberá quais itens entram em qual fator. (Executar alfa em TODOS os itens provavelmente não é uma boa ideia).
Em seguida, execute alfa e exclua itens que têm correlações muito mais pobres que os outros em cada fator. Eu não definiria um corte arbitrário, procuraria por aqueles que eram muito inferiores aos outros. Veja se a exclusão deles faz sentido.
Por fim, escolha itens com uma variedade de níveis de "dificuldade" no IRT.
Então, se possível, refaça isso no conjunto de testes, mas sem fazer nenhuma exploração. Ou seja, veja como o resultado encontrado no conjunto de treinamento funciona no conjunto de teste.
fonte
Na verdade, todos os três critérios sugeridos poderiam ser realizados na TRI, mais especificamente na multidimensional. Se o tamanho da amostra for razoavelmente grande, provavelmente seria uma maneira consistente de fazer isso para cada subescala. Dessa forma, você pode obter os benefícios do IRT para modelar itens de forma independente (usando modelos nominais para alguns itens, crédito parcial generalizado ou classificado para outros, ou, se possível, configurar escalas de classificação para ajudar a interpretar itens politômicos de uma maneira mais parcimoniosa).
Você pode tentar remover itens que não estão em conformidade com os requisitos unidimensionais da maioria dos softwares de TRI, mas eu não recomendaria isso necessariamente se isso afeta a representação teórica das construções em questão. Em aplicações empíricas, geralmente é melhor tentar adaptar nossos modelos à nossa teoria, e não o contrário. Além disso, é nesse ponto que os modelos bifator / duas camadas tendem a ser apropriados, pois você deseja incluir todos os itens possíveis enquanto considera a multidimensionalidade de uma maneira sistemática e teoricamente desejável.
fonte
mirt
fscores()
sirt
TAM