Eu trabalho na pesquisa de serviços de saúde. Coletamos resultados relatados pelos pacientes, por exemplo, função física ou sintomas depressivos, e eles são frequentemente pontuados no formato que você mencionou: uma escala de 0 a N gerada pela soma de todas as perguntas individuais da escala.
A grande maioria da literatura que analisei apenas usou um modelo linear (ou um modelo linear hierárquico, se os dados derivam de observações repetidas). Ainda não vi ninguém usar a sugestão de @ NickCox para um modelo de logit (fracionário), embora seja um modelo perfeitamente plausível.
A teoria da resposta ao item me parece outro modelo estatístico plausível a ser aplicado. É aqui que você assume que alguma característica latente causa respostas às perguntas usando um modelo logístico ou logístico ordenado. Isso lida inerentemente com as questões de limite e possível não linearidade que Nick levantou.θ
O gráfico abaixo deriva do meu próximo trabalho de dissertação. É aqui que encaixo um modelo linear (vermelho) em uma pontuação de pergunta sobre sintomas depressivos que foi convertida em escores Z e um modelo (explicativo) de TRI em azul para as mesmas perguntas. Basicamente, os coeficientes para ambos os modelos estão na mesma escala (ou seja, em desvios padrão). Na verdade, há um bom acordo no tamanho dos coeficientes. Como Nick aludiu, todos os modelos estão errados. Mas o modelo linear pode não ser muito errado de usar.
Dito isto, uma suposição fundamental de quase todos os modelos atuais de TRI é que a característica em questão é bipolar, ou seja, seu suporte é a . Provavelmente isso não se aplica aos sintomas depressivos. Modelos para traços latentes unipolares ainda estão em desenvolvimento, e o software padrão não pode ajustá-los. Muitas das características das pesquisas de serviços de saúde em que estamos interessados provavelmente são unipolares, como sintomas depressivos, outros aspectos da psicopatologia, satisfação do paciente. Portanto, o modelo de TRI também pode estar errado.- ∞∞
(Nota: o modelo acima era adequado ao pacote de Phil Chalmers mirt
no R. Graph produzido usando ggplot2
e ggthemes
. O esquema de cores é baseado no esquema de cores padrão Stata.)
Dê uma olhada nos valores previstos e verifique se eles têm aproximadamente a mesma distribuição que os Ys originais. Se for esse o caso, a regressão linear provavelmente está correta. e você ganhará pouco melhorando seu modelo.
fonte
Uma regressão linear pode "adequadamente" descrever esses dados, mas é improvável. Muitas suposições de regressão linear tendem a ser violadas nesse tipo de dados a tal ponto que a regressão linear se torna desaconselhada. Vou escolher algumas suposições como exemplos,
As violações dessas suposições são atenuadas se os dados tendem a cair ao redor do centro do intervalo, longe das bordas. Mas, na verdade, a regressão linear não é a ferramenta ideal para esse tipo de dados. Alternativas muito melhores podem ser regressão binomial ou regressão de Poisson.
fonte
Se a resposta incluir apenas algumas categorias, você poderá usar métodos de classificação ou regressão ordinal se sua variável de resposta for ordinal.
A regressão linear simples não fornecerá categorias discretas nem variáveis de resposta limitadas. O último pode ser corrigido usando um modelo de logit como na regressão logística. Para algo como uma pontuação de teste com 100 categorias de 1 a 100, você também pode simplificar sua previsão e usar uma variável de resposta limitada.
fonte
use um cdf (função de distribuição cumulativa das estatísticas). se o seu modelo é y = xb + e, altere-o para y = cdf (xb + e). Você precisará redimensionar novamente os dados variáveis dependentes para ficar entre 0 e 1. Se forem números positivos, divida por eles no máximo e faça as previsões do modelo e multiplique pelo mesmo número. Em seguida, verifique o ajuste e veja se as previsões limitadas melhoram as coisas.
Você provavelmente deseja usar um algoritmo fixo para cuidar das estatísticas para você.
fonte