Como encontro uma interceptação nos dados de porcentagem? Meus dados têm porcentagem de notas (converti para números em que ) por etnia e outros indicadores que quero testar para usar variáveis fictícias. Por exemplo 90,3% dos estudantes chineses tem um * - C série, os alunos da raça misturada que ficou 87,3% etc. Como posso interpretar isso para obter uma interceptação? Escolhi a mediana 32,5, pois as notas são de 5 A ∗ a C (entre A ∗ ( 8 ⋅ 5 e C ( 5 ⋅ 5 = 25 ) . O uso da mediana neste caso é sensato?
Minha equação será
onde é a nota, b 0 é a mediana (constante), b 1 é a refeição da escola gratuita, b 2 é chinês, b 3 é preto, b 4 é asiático, b 4 é asiático, b 5 é masculino, b 6 é feminino e u é o termo do erro. Branco é o padrão.
Portanto, se um aluno chinês do sexo masculino não recebe refeições escolares gratuitas (proxy da pobreza), é .
Minha pergunta é a seguinte: meu uso de mediana faz algum sentido e, em segundo lugar, como eu já sei que os alunos chineses têm um desempenho melhor que o resto do grupo, preciso usar a diferença percentual ou usar as variáveis binárias fictícias.
Quero simplesmente descobrir o efeito da pobreza e da raça nas notas esperadas dos alunos. Eu não tenho acesso a notas individuais ou dados do painel para obter renda etc. Por isso, quero usar a refeição escolar gratuita.
Obrigado novamente por suas respostas.
Respostas:
Como Jamzy observou, execute uma regressão OLS nas notas em relação às variáveis que você possui.
fonte
Isso acaba sendo um pouco confuso. Deve-se executar um GLM com link probit ou logit . A razão para isso é que a regressão é limitada e não queremos que suas estimativas ignorem os limites e sugiram notas de 130% ou -20%. Tais estimativas podem e provavelmente ocorrerão com o OLS. Veja a publicação do Stata Journal sobre este assunto. ou aqui .
Geralmente, essas regressões probit / logit são usadas para dados binários, consistindo em 0 e 1. No entanto, elas funcionarão bem aqui, onde a nota é a probabilidade de acertar qualquer pergunta.
O intercepto ainda tem um análogo nessas estimativas. É um termo constante que passará por uma transformação, dependendo da sua escolha de probit ou logit. Acredito que existem outras funções de link disponíveis, mas elas não são particularmente comuns na literatura econômica.
Obviamente, é possível que sua distribuição não seja uma dessas, mas elas são consideradas padrão.
Também é possível que o OLS não seja imparcial na estimativa de uma interceptação para esse tipo de dados, mas pode sugerir notas impossíveis (por exemplo, -0,2 ou 1,3 como interceptação). A razão pela qual isso é impossível é porque não se pode obter um -0,2 ou um -1,3 como uma nota de percentil.
fonte