Como começar a aplicar a teoria da resposta ao item e qual software usar?

21

Contexto

Eu tenho lido sobre a teoria da resposta ao item e acho fascinante. Acredito que compreendo o básico, mas fiquei me perguntando como aplicar técnicas estatísticas relacionadas à área. Abaixo estão dois artigos semelhantes à área em que gostaria de aplicar o ITR:

O segundo é o que eu realmente gostaria de estender neste momento.

Eu baixei um programa gratuito chamado jMetrik e parece estar funcionando muito bem. Eu acho que pode ser muito básico no que diz respeito à TRI, mas não tenho certeza.

Eu sei que o "melhor" caminho provavelmente envolveria aprender R; no entanto, não sei se posso poupar tempo para enfrentar essa curva de aprendizado. Observe que temos algum financiamento para a compra de software, mas pelo que vejo, parece não haver grandes programas de IRT por aí.

Questões

  • Quais são seus pensamentos sobre a eficácia do jMetrik?
  • Como você sugere que eu avance na aplicação da TRI?
  • Quais são os melhores programas para aplicar o IRT?
  • Algum de vocês usa IRT regularmente? Se sim, como?
Behacad
fonte
1
qual software você usa atualmente?
StasK 15/09/11
Eu tenho usado o jMetrik. Parece bastante novo e vem fazendo muitas coisas pelas quais estou interessado!
Behacad 15/09/11
2
Funciona no modo de script? Se você tiver apenas uma GUI, seus resultados serão muito difíceis de reproduzir. Um modo de script é obrigatório para qualquer software sério.
StasK

Respostas:

22

Como um bom iniciador para a TRI, eu sempre recomendo a leitura de um guia visual para a teoria da resposta ao item .

Uma pesquisa sobre o software disponível pode ser encontrada em www.rasch.org .

Pela minha experiência, achei os comandos Stata Raschtest (e associados) muito úteis na maioria dos casos em que alguém está interessado em ajustar o modelo de um parâmetro. Para um design mais complexo, pode-se recorrer ao GLLAMM ; há um bom exemplo de trabalho baseado no livro de De Boeck e Wilson, Item Explicativo e Modelos de Resposta (Springer, 2004).

Sobre o R especificamente, existem muitos pacotes que foram disponibilizados nos últimos cinco anos, veja, por exemplo, a Visão de Tarefa CRAN relacionada . A maioria deles é discutida em uma edição especial do Journal of Statistical Software (vol. 20, 2007). Conforme discutido em outra resposta, o ltm e o eRm permitem ajustar uma ampla variedade de modelos de TRI. Como eles se baseiam em diferentes métodos de estimativa - ltmusaram a abordagem marginal enquanto eRmusavam a abordagem condicional - a escolha de uma ou de outra é principalmente uma questão do modelo que você deseja ajustar (eRm não se encaixa nos modelos de 2 ou 3 parâmetros) e no objetivo de medição que você segue: a estimativa condicional dos parâmetros pessoais possui algumas boas propriedades psicométricas, enquanto uma abordagem marginal permite alternar facilmente para o modelo de efeitos mistos, conforme discutido nos dois artigos a seguir. :

Existem também algumas possibilidades para ajustar modelos Rasch usando métodos MCMC, consulte, por exemplo, o pacote MCMCpack (ou WinBUGS / JAGS , mas consulte o Código de BUGS para a Teoria da Resposta ao Item , JSS (2010) 36).

Não tenho experiência com SAS para modelagem de IRT, portanto, deixarei isso para alguém que seja mais versado em programação SAS.

Outros softwares dedicados (usados ​​principalmente na avaliação educacional) incluem: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (sem citar a lista já disponível na wikipedia ). Nenhum é de uso gratuito, mas a versão de demonstração com tempo limitado é proposta para alguns deles. Eu achei o jMetrik muito limitado quando tentei (um ano atrás) e todas as funcionalidades já estão disponíveis no R. Da mesma forma, o ConstructMap pode ser substituído com segurança pelo lme4 , conforme ilustrado no folheto acima. Também devo mencionar mdltm(Modelos multidimensionais discretos de características latentes) para modelos mistos de Rasch, de von Davier e Coll., Que devem acompanhar o livroModelos Rasch de distribuição multivariada e de mistura (Springer, 2007).

chl
fonte
Fantástico! Obrigado pela resposta muito abrangente! Essas duas respostas me ajudarão muito bem, assim como qualquer outra pessoa que esteja curiosa em seguir essa área, tenho certeza. Eu sugiro que você dê uma olhada no jMetrik novamente e talvez me dê seus pensamentos. Ele possui modelagem Rasch agora, curvas ICC, algumas curvas IRT, equações IRT (modelos 1PT, 2PT, 3PT) e muito mais.
Behacad 19/09/11
Vou olhar para a versão atualizada. Mas, sinceramente, o que o @Stask disse vale a pena lembrar se você planeja fazer algo sério além da estimativa de parâmetros e relatórios visuais. Para se ter uma ideia do que quero dizer, olhar para uma introdução à teoria psicométrica com aplicações em R . (Abrange mais do que apenas o que alguns chamam psicometria "modernos".)
chl
@chi - obtive resultados muito diferentes quando executei análises de TRI no R usando ltm em comparação com quando executei a mesma análise no Mplus e depois no Multilog (enquanto as análises no Mplus e no Multilog eram idênticas). Tentei descobrir o porquê com o autor da ltm, mas não recebi nenhuma resposta. Você já teve experiências semelhantes com resultados discrepantes de diferentes pacotes de software?
Tormod
ex5.5θp-βEuEu=1,...,kp=1,...,nβEu-θpque é modelado e o método de estimativa (probabilidade marginal versus probabilidade condicional) e para mais de 2 modelos de parâmetros, com ou sem limiares centralizados.
chl
@chi - desculpe pelo atraso na resposta, não notei seu comentário. Não sei se isso ainda é relevante, mas obtive diferenças variando de 0,184 a 1,429 para os parâmetros de discriminação (a). Por exemplo, o Mplus deu a = 5,084, enquanto ltm deu o mesmo item a = 3,655. No geral, ltm deu a's menores que mplus. (Executar as mesmas análises em multilog deu a's correspondentes aos a's da Mplus). Os b's eram mais parecidos.
Tormod 28/10
8

Para a primeira pergunta, não tenho nenhuma informação sobre o jMetrick.

Ao aplicar a TRI, (como em qualquer outro procedimento estatístico), o primeiro passo é usá-lo com o maior número possível de dados. Existe uma curva de aprendizado, mas acredito que vale a pena.

Uma característica importante da TRI é a diferenciação entre os modelos Rasch e os modelos IRT. Eles foram desenvolvidos por pessoas diferentes para diferentes fins. Dito isto, os modelos de TRI são um superconjunto de modelos Rasch.

Os modelos Rasch são modelos de um parâmetro - eles assumem que todos os itens de um questionário são igualmente preditivos da característica latente.

Os modelos de TRI, no entanto, são dois modelos de parâmetros que permitem que as perguntas sejam diferentes em sua capacidade de fornecer informações sobre a capacidade dos participantes.

Além disso, existem três modelos de parâmetros que são semelhantes aos modelos de TRI, exceto que eles permitem que um parâmetro de adivinhação explique a capacidade dos participantes de obter a resposta certa por acaso (isso é mais uma preocupação de habilidade do que de testes de personalidade).

Além disso, existe uma TRI multidimensional que estima várias habilidades latentes de uma só vez. Não sei muito sobre isso, mas é uma área que pretendo aprender mais.

Há também uma distinção entre métodos dicotômicos e politômicos de TRI. Modelos dicotômicos de TRI são aqueles usados ​​em testes de habilidade, que têm uma resposta certa e errada. Modelos de IRT politômicos são usados ​​em testes de personalidade, onde existem várias respostas, igualmente corretas (no sentido de que não há resposta correta).

Eu pessoalmente uso R para a teoria da resposta ao item. Existem dois pacotes principais que eu usei, eRmque se encaixam apenas nos modelos Rasch e ltmque se encaixam nos modelos da teoria de resposta ao item (modelos de dois e três parâmetros). Ambos possuem funcionalidade semelhante e fornecem mais rotinas para modelos dicotômicos de TRI. Não sei se R é o "melhor" para IRT, ele não possui toda a variedade de modelos de IRT disponíveis, mas é certamente o mais extensível, pois é possível programar esses modelos com relativa facilidade.

Uso o IRT quase que exclusivamente para modelos politômicos, em R. Normalmente começo com métodos não paramétricos do IRT (fornecidos no pacote mokken) para testar as suposições e, em seguida, prossigo com um modelo rasch, adicionando mais complexidade conforme necessário para obter um bom ajuste.

Para o IRT multidimensional, existe o pacote `mirt ', que fornece essa funcionalidade. Eu não o usei, então não posso realmente comentar.

Se você instalar esses pacotes no R e chamar a função 'vignette ("packagename")' ', deverá obter algumas vinhetas úteis (definitivamente para eRme mokkenpossivelmente outras) que podem ser úteis para você (dependendo do seu nível de sofisticação matemática).

Finalmente, há vários bons livros disponíveis para os modelos rasch e irt. A teoria da resposta ao item para psicólogos é frequentemente usada (embora eu não goste do estilo) e, além da cadeia de sofisticação técnica, existem dois livros didáticos extremamente abrangentes e úteis - o Manual da Teoria Moderna da Resposta ao Item e os modelos Rasch: fundações recentes Desenvolvimentos e aplicações .

Eu espero que isso ajude.

richiemorrisroe
fonte
Obrigado! Isso é muito apreciado. Também gostaria de saber mais sobre as opções de software se alguém tiver algum conhecimento na área.
Behacad 15/09/11
3

O jMetrik é mais poderoso do que você imagina. Ele foi projetado para o trabalho operacional em que os pesquisadores precisam de vários procedimentos em uma única estrutura unificada. Atualmente, você pode estimar parâmetros de TRI para os modelos Rasch, crédito parcial e escala de classificação. Também permite a ligação da escala do IRT através do Stocking-Lord, Haebara e outros métodos. Por incluir um banco de dados integrado, a saída da estimativa do IRT pode ser usada em links de escala sem a necessidade de remodelar os arquivos de dados. Além disso, toda saída pode ser armazenada no banco de dados para uso com outros métodos no jMetrik ou em programas externos como o R.

Você também pode executá-lo com scripts em vez da GUI. Por exemplo, o código a seguir irá (a) importar dados para o banco de dados, (b) pontuar itens com uma chave de resposta, (c) estimar os parâmetros do modelo Rasch e (d) exportar dados como um arquivo CSV. Você pode usar o arquivo de saída final como entrada no R para análises adicionais, ou pode usar o R ​​para conectar-se diretamente ao banco de dados jMetrik e trabalhar com os resultados.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

O software ainda está em seus estágios iniciais de desenvolvimento. Atualmente, estou adicionando análise fatorial exploratória e modelos mais avançados de resposta a itens. Ao contrário de muitos outros programas de IRT, o jMetrik é de código aberto. todos os procedimentos de medição usam a biblioteca psicométrica atualmente disponível no GitHub, https://github.com/meyerjp3/psychometrics . Qualquer pessoa interessada em contribuir é bem-vinda.

meyerjp3
fonte
0

Você tem uma lista bastante ampla de perguntas aqui, mas bastante relevante para muitos pesquisadores!

Eu recomendo que você avance no IRT, mas somente se sua situação atender aos requisitos. Por exemplo, ele se adapta bem aos tipos de testes que você usa e provavelmente o mais importante é que você tenha os tamanhos de amostra necessários. Para dados dicotômicos de múltipla escolha, recomendo o modelo 3PL (o argumento Rasch de "medição objetiva" é surpreendentemente desinteressante) e 500-1000 é geralmente o tamanho mínimo da amostra. Dados dicotômicos sem adivinhação, como pesquisas psicológicas que têm respostas Y / N a declarações, funcionam bem com o 2PL. Se você possui escala de classificação ou dados parciais de crédito, existem modelos politômicos projetados especificamente para essas situações.

IMHO, o melhor programa para aplicar o IRT é o Xcalibre. É relativamente fácil de usar (GUI simples, bem como algum tipo de lote de linha de comando, se você quiser por algum motivo) e produz uma saída altamente legível (o MS Word reporta com tabelas e figuras extensas). Eu recomendo não usar R pelas razões opostas. A desvantagem, é claro, é que não é gratuito, mas você tende a receber o que paga como dizem. Descrição completa, exemplo de saída e uma avaliação gratuita estão disponíveis em www.assess.com .

Enéias
fonte
Você gostaria de explicar por que o argumento sobre "medição objetiva" sensu Rasch (ou mais corretamente a possibilidade de comparações objetivas específicas) é "surpreendentemente desinteressante"?
Momo