Eu tenho as porcentagens de classificação dos alunos em 38 exames como a variável dependente no meu estudo. Uma porcentagem de classificação é calculada por (classificação / número de alunos em um exame). Essa variável dependente tem distribuição quase uniforme e eu quero estimar os efeitos de algumas variáveis na variável dependente.
Qual abordagem de regressão eu uso?
regression
distributions
siren99
fonte
fonte
Respostas:
Se você estiver trabalhando com a Stata, consulte o seguinte exemplo: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Aqui está uma citação desta página da web:
fonte
Sinopse
Os resultados da regressão podem ter algum valor limitado quando cuidadosamente interpretados. Formas inevitáveis de variação farão com que as estimativas do coeficiente diminuam substancialmente para zero. É necessário um modelo melhor que lide com a variação de maneira mais apropriada.
(Um modelo de máxima verossimilhança pode ser construído, mas pode ser impraticável devido ao cálculo necessário, o que envolve a avaliação numérica de integrais multidimensionais. O número de dimensões é igual ao número de alunos matriculados nas aulas.)
Introdução
Como narrativa para fundamentar nossa intuição, imagine que esses 38 exames foram realizados em 38 cursos separados durante um semestre em uma pequena escola com matrícula de 200 estudantes universitários. Em uma situação realista, esses alunos terão diferentes habilidades e experiências. Como medidas substitutas dessas habilidades e experiências, podemos obter, digamos, notas nos testes de matemática e verbais do SAT e ano na faculdade (1 a 4).
Normalmente, os alunos se matriculam em cursos de acordo com suas habilidades e interesses. Os calouros fazem cursos introdutórios e os cursos introdutórios são preenchidos principalmente por calouros. Os alunos do ensino médio e os calouros e alunos do segundo ano do ensino médio fazem os cursos avançados e de pós-graduação. Essa seleção estratifica parcialmente os alunos, de modo que as habilidades inatas dos alunos de qualquer classe são tipicamente mais homogêneas do que a disseminação de habilidades por toda a escola.
Assim, os alunos mais capazes podem encontrar-se pontuando perto da parte inferior das aulas difíceis e avançadas nas quais se matriculam, enquanto os alunos menos capazes podem pontuar perto do topo das aulas introdutórias fáceis que recebem. Isso pode confundir uma tentativa direta de relacionar as classificações dos exames diretamente aos atributos dos alunos e das turmas.
Análise
Indexe os alunos com e deixe que os atributos do aluno i sejam dados pelo vetor x i . Indexe as classes com j e deixe que os atributos da classe j sejam dados pelo vetor z j . O conjunto de alunos matriculados na classe j é A jEu Eu xEu j j zj j UMAj .
Assumir a "força" de cada aluno é uma função de seus atributos mais algum valor aleatório, que pode muito bem ter média zero:sEu
Modelamos o exame na classe adicionando valores aleatórios independentes à força de cada aluno matriculado na classe e convertendo-os em classificações. Daí, se estudante i é inscrito na classe j , a sua posição relativa r i , j é determinada pela sua posição na matriz ordenada de valoresj Eu j ri , j
Esta posição é dividido por um mais do que o total de matrículas classe para dar a variável dependente, a ordem percentual:ri,j
Afirmo que os resultados da regressão dependem (um pouco) dos tamanhos e da estrutura dos valores aleatórios (não observados) e δ i , j .εi δi,j Os resultados também dependem precisamente de como os alunos estão matriculados nas aulas. Isso deve ser intuitivamente óbvio, mas o que não é tão óbvio - e parece difícil de analisar teoricamente - é como e quanto os valores não observados e as estruturas de classe afetam a regressão.
Simulação
Sem muito esforço , podemos simular essa situação para criar e analisar alguns dados de amostra. Uma vantagem da simulação é que ela pode incorporar o verdadeiro pontos fortes dos alunos, que na realidade não são observáveis. Outra é que podemos variar os tamanhos típicos dos valores não observados, bem como as atribuições da classe. Isso fornece uma "caixa de areia" para avaliar os métodos analíticos propostos, como a regressão.
Para começar, vamos definir o gerador de números aleatórios para resultados reproduzíveis e especificar o tamanho do problema. Eu uso
R
porque está disponível para qualquer pessoa.Para fornecer realismo, crieδi,j j
n.classes
classes de dificuldades variadas em duas escalas (matemática e verbal, com correlação negativa), conduzidas em diferentes níveis acadêmicos (variando de 1 = introdutório a 7 = pesquisa) e com facilidade variável. (Em uma aula "fácil", as diferenças entre as quantidades de aprendizado dos alunos podem ser grandes e / ou o exame pode oferecer pouca discriminação entre os alunos. Isso é modelado por termos aleatórios que, para a classe j, tendem a ser grandes Os resultados do exame serão quase imprevisíveis a partir dos dados de força do aluno. Quando a turma não é "fácil", esses termos aleatórios são insignificantes pequenos e a força do aluno pode determinar perfeitamente a classificação do exame.)Os alunos são distribuídos entre os quatro anos e recebem valores aleatórios de seus atributos. Não há correlações entre nenhum destes atributos:
O modelo é que cada aluno tem uma "força" inerente determinada em parte por seus atributos e em parte por sua "habilidade", que é o valor . Os coeficientes de força , que determinam a força em termos de outros atributos, são o que a análise de dados subsequente procurará estimar. Se você quiser jogar com esta simulação, faça-o alterando . A seguir, é apresentado um conjunto interessante e realista de coeficientes, refletindo o aprendizado contínuo dos alunos durante a faculdade (com uma grande quantidade entre os anos 2 e 3); onde 100 pontos em cada parte do SAT valem cerca de um ano de escola; e onde cerca de metade da variação é devida aos valores de "habilidade" não capturados pelas notas do SAT ou pelo ano na escola.εi
beta
beta
(Ter em mente queδi,j .01 .2 ou mais me parecem razoáveis.)
students$ability
é inobservável: é um desvio aparentemente aleatório entre a força prevista dos outros atributos observáveis e a força real nos exames. Para remover esse efeito aleatório, definabeta$ability
como zero.beta$sigma
Multiplicará osease
valores: é basicamente o desvio padrão do relação à gama de forças dos alunos em um determinado curso Valores em torno de 0,01 a 0,2Deixe os alunos escolherem cursos que correspondam às suas habilidades. Uma vez que eles façam isso, podemos calcular os tamanhos das classes e esconder esses com o0
classes
dataframe para uso posterior. O valor despread
naassignments <-...
linha determina o quanto os alunos são divididos em classes por habilidade. Um valor próximo de combina essencialmente os alunos mais fracos com os cursos mais fáceis. Um valor próximo ao número de aulas espalha os alunos um pouco mais. Valores muito maiores do que esses começam a ficar irreais, porque tendem a colocar os alunos mais fracos nos cursos mais difíceis.(Como um exemplo do que esta etapa foi realizada, veja a figura mais abaixo.)
Agora aplique o modelo: as habilidades dos alunos em cada turma são variadas de forma independente - mais para exames fáceis, menos para exames difíceis (discriminatórios) - para determinar suas notas. Eles são resumidos como classificações e "brincadeiras", que são porcentagens de classificação. As brincadeiras para uma classe de alunos variam de 1 / ( n + 1 ) a n / ( n +n 1/(n+1) n/(n+1) 1/(n+1) 0 1
A esses dados brutos, anexamos os atributos de aluno e classe para criar um conjunto de dados adequado para análise:
Vamos nos orientar inspecionando uma amostra aleatória dos dados:
O registro 118, por exemplo, diz que o aluno nº 28 se matriculou na classe nº 1 e ficou em 22º (de baixo) no exame para uma classificação percentual de 0,957. O nível geral de dificuldade desta classe foi de 0,0523 (muito fácil). Um total de 22 alunos foram matriculados. Este estudante está no segundo ano (segundo ano) com 590 de matemática, 380 notas verbais no SAT. Sua força acadêmica inerente é de 16,9. Eles estavam matriculados em quatro classes na época.
Este conjunto de dados comporta com a descrição na pergunta. Por exemplo, as classificações percentuais são quase uniformes (como devem ser para qualquer conjunto de dados completo, porque as classificações percentuais para uma única classe têm uma distribuição uniforme e discreta).
Lembre-se, em virtude dos coeficientes em
beta
, este modelo assumiu uma forte conexão entre as pontuações dos exames e as variáveis mostradas neste conjunto de dados. Mas o que mostra a regressão? Vamos regredir a logística da classificação percentual em relação a todas as características observáveis dos alunos que possam estar relacionadas às suas habilidades, bem como aos indicadores de dificuldade da classe:As plotagens de diagnóstico (
plot(fit)
) parecem fastásticas: os resíduos são homocedásticos e lindamente normais (embora um pouco curtos, o que não é problema); sem discrepâncias; e nenhuma influência desagradável em qualquer observação.level
level
(A propósito, o uso das classificações percentuais não transformadas na regressão não altera qualitativamente os resultados relatados abaixo.)
spread
( Neste gráfico de dispersão de tarefas da turma,38
spread
definido comospread
1
Desta vez, o R-quadrado é muito melhorado (embora ainda não seja ótimo). No entanto, todos os coeficientes aumentaram de 20 a 100%. Esta tabela os compara com algumas simulações adicionais:
Guardando38 2 1 0 εi δi,j completamente, dá um elevado ao quadrado R e produz estimativas perto com os valores correctos. (Vale ressaltar que o coeficiente
spread
ability
ability
sigma
level
então diminui em uma ordem de magnitude.)Essa análise rápida mostra que a regressão, pelo menos como realizada aqui, confunde formas inevitáveis de variação com os coeficientes. Além disso, os coeficientes também dependem (até certo ponto) de como os alunos são distribuídos entre as aulas. Isso pode ser parcialmente acomodado pela inclusão de atributos de classe entre as variáveis independentes na regressão, como feito aqui, mas mesmo assim o efeito da distribuição dos alunos não desaparece.
Qualquer falta de previsibilidade do verdadeiro desempenho do aluno, e qualquer variação no aprendizado do aluno e no desempenho real nos exames, aparentemente fazem com que as estimativas do coeficiente diminuam para zero. Eles parecem fazê-lo uniformemente, sugerindo que os coeficientes relativos ainda possam ser significativos.
fonte
A medida que o usuário13203 propõe pode ser considerada como uma pontuação de desempenho inferior limitado, quanto menor, melhor o desempenho:yeu j i-ésimo desempenho do aluno no j-ésimo exame.
Usando uma transformação linearizante de logit em queμeu j pode depender das características observáveis dos alunos ou dos exames:
as habilidades não observadas do aluno são modeladas através do componente aleatóriovEu enquanto eeu j modela outros não observáveis não sistemáticos. A correlação entre respostas (exames) pode ser corrigida afirmando uma estrutura geral de covariância paraeeu j . Por que não uma estrutura de variação de branco (ou sanduíche / robusta)? Além disso, algumas das correlações de respostas podem ser explicadas dentro doμeu j (dependência condicional).
(Esta é apenas uma ideia da minha experiência tendenciosa, comentários e críticas são mais que bem-vindos.)
É provável que habilidades não observáveis sejam correlacionadas com atributos observáveis de alunos ou exames dentroμeu j . Essa premissa faz deste modelo um ER com componentes de erro correlacionados, que podem ser estimados por ML ou por um estimador de dois estágios: primeiro estágio: uma transformação interna (ou analógica) que eliminavEu . Segunda etapa: OLS no modelo transformado.
fonte
Você pode tentar a regressão logística. A transformação de logitem( p1 - p) espalhará sua variável de resposta pela linha real para que você não obtenha porcentagens de classificação previstas absurdas como -3% ou + 110%.
fonte
Um modelo perfeito nesse caso mapeará as entradas (quaisquer que sejam suas covariáveis) para as saídas (a classificação do aluno na classe). Outra maneira de pensar nisso é mapeando primeiro as pontuações e, em seguida, mapeando essas pontuações para a classificação. Vou ignorar o erro por enquanto.
pontuação do teste:y= ∑ βx
classificação:r = R ( y)
No qualR é a função de classificação. O problema é queR é uma função não linear que depende inteiramente dos próprios dados. Se assumirmos que temos uma quantidade infinita de dados, saberemos a distribuição completa dey e R ( y) é essencialmente a função de densidade cumulativa. Ele informa qual porcentagem de pessoas obteve uma pontuação pior que você no teste, a área à esquerda da sua pontuação.
Isso parece ser bastante semelhante à forma funcional do modelo linear generalizado. Penso que é por isso que a abordagem de regressão logística foi proposta por Mike Anderson. Se as pontuações dos seus exames forem distribuídas logisticamente, a função de link a ser usada será o logit (sua inversa é a função de densidade cumulativa com a qual nos preocupamos). Da mesma forma, se as pontuações fossem normalmente distribuídas, a função probit seria a função de link.
Para sua regressão, a única maneira de estimar as classificações é dizer "dado que meus dados são distribuídos como X, esse ponto está no 34º percentil". Caso contrário, como você sabe o que significa um aumento de dois pontos na pontuação do teste em termos de classificação? A ressalva é que você precisa estimar essa distribuição para escolher sua função de link (certas formas funcionais tornarão sua vida muito mais fácil). Além disso, esse modelo não diz "você foi o sexto melhor de uma classe de 38", e sim "se as pontuações dos testes fossem distribuídas como pensamos que são, sua pontuação o colocaria no percentil 15".
fonte