Equações nas notícias: traduzindo um modelo de vários níveis para um público geral

24

O New York Times tem um longo comentário sobre o sistema de avaliação de professores de "valor agregado" usado para dar feedback aos educadores da cidade de Nova York. O lede é a equação usada para calcular as pontuações - apresentadas sem contexto. A estratégia retórica parece ser intimidação via matemática:

texto alternativo

O texto completo do artigo está disponível em: http://www.nytimes.com/2011/03/07/education/07winerip.html

O autor, Michael Winerip, argumenta que o significado da equação está além da capacidade de alguém que não seja Matt Damon de entender, muito menos um professor comum:

"O cálculo da pontuação prevista de 3,69 de Isaacson é ainda mais assustador. É baseado em 32 variáveis - incluindo se um aluno foi" retido na série antes do ano do pré-teste "e se um aluno é" novo na cidade no pré-teste ou no pós-teste " ano."

Essas 32 variáveis estão conectadas a um modelo estatístico que se parece com uma daquelas equações que, em "Caça à Boa Vontade", apenas Matt Damon foi capaz de resolver.

O processo parece transparente, mas é claro como lama, mesmo para leigos inteligentes como professores, diretores e - hesito em dizer isso - jornalistas.

Isaacson pode ter dois diplomas na Ivy League, mas ela está perdida. "Acho isso impossível de entender", disse ela.

Em inglês simples, o melhor palpite de Isaacson sobre o que o departamento está tentando lhe dizer é: embora 65 de seus 66 alunos tenham obtido proficiência no teste estadual, mais de seus 3s deveriam ter 4s.

Mas isso é apenas um palpite. "

Como você explicaria o modelo a um leigo? Para sua informação, o relatório técnico completo está em:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Atualização: Andrew Gelman oferece seus pensamentos aqui: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

regression multilevel-analysis statistics-in-media Andrew
fonte

11

Vale a pena ler os pensamentos de Gelman e os comentários em seu post. O sistema de pontuação é quase certamente lixo: considere que o IC95% para esse professor é .

[0 %, 52 %]

$[0\%,~52\%]$

gung - Restabelece Monica

12

Aqui está uma possibilidade.

Avaliar o desempenho dos professores tem sido tradicionalmente difícil. Uma parte dessa dificuldade é que diferentes alunos têm diferentes níveis de interesse em um determinado assunto. Se um determinado aluno recebe um A, isso não significa necessariamente que o ensino foi excelente - ao contrário, pode significar que um aluno muito talentoso e interessado fez o possível para ter sucesso, apesar da baixa qualidade do ensino. Por outro lado, um aluno que obtém um D não significa necessariamente que o ensino foi ruim - em vez disso, pode significar que um aluno desinteressado se acostumou apesar dos melhores esforços do professor para educar e inspirar.

A dificuldade é agravada pelo fato de a seleção de alunos (e, portanto, o nível de interesse dos alunos) estar longe de ser aleatória. É comum as escolas enfatizarem uma disciplina (ou um grupo de disciplinas) em detrimento de outras. Por exemplo, uma escola pode enfatizar assuntos técnicos sobre humanidades. Os alunos dessas escolas provavelmente estão tão interessados em áreas técnicas que receberão uma nota de aprovação mesmo com o pior professor possível. Portanto, a fração de alunos que passam na matemática não é uma boa medida de ensino - esperamos que os bons professores se saiam muito melhor do que isso com os alunos que desejam aprender. Por outro lado, esses mesmos alunos podem não estar interessados em artes. Seria difícil esperar, mesmo do melhor professor, garantir que todos os alunos recebessem notas A.

Outra dificuldade é que nem todo sucesso em uma determinada turma é atribuível diretamente ao professor dessa turma. Em vez disso, o sucesso pode ser devido à escola (ou distrito inteiro) criar motivação e estrutura para a conquista.

Para levar em conta todas essas dificuldades, os pesquisadores criaram um modelo que avalia o "valor agregado" do professor. Em essência, o modelo leva em consideração as características intrínsecas de cada aluno (nível geral de interesse e sucesso na aprendizagem), bem como as contribuições da escola e do distrito para o sucesso do aluno, e prevê as notas dos alunos que seriam esperadas com 'média'. ensino nesse ambiente. O modelo compara as notas reais às previstas e, com base nele, decide se o ensino foi adequado, considerando todas as outras considerações, melhores que adequadas ou piores. Embora o modelo possa parecer complexo para um não matemático, ele é realmente bastante simples e padrão. Os matemáticos têm usado modelos semelhantes (e ainda mais complexos) há décadas.

Para resumir, o palpite de Isaacson está correto. Mesmo que 65 de seus 66 alunos tivessem obtido proficiência no teste estadual, eles teriam o mesmo resultado, mesmo que o cão fosse seu professor. Um bom professor real permitiria que esses alunos alcançassem pontuações não apenas 'proficientes', mas realmente 'boas' no mesmo teste.

Nesse ponto, eu poderia mencionar algumas das minhas preocupações com o modelo. Por exemplo, os desenvolvedores do modelo afirmam que ele aborda algumas das dificuldades na avaliação da qualidade do ensino. Tenho motivos suficientes para acreditar neles? Bairros com população de baixa renda terão menor pontuação esperada de 'distrito' e 'escola'. Digamos que um bairro tenha uma pontuação esperada de 2,5. Um professor que atingir uma média de 3 receberá uma boa avaliação. Isso pode levar os professores a apontar para a pontuação de 3, em vez de 4 ou 5. Por outras palavras, os professores devem buscar a mediocridade e não a perfeição. Queremos que isso aconteça? Finalmente, embora o modelo seja matematicamente simples, ele funciona de uma maneira muito diferente da maneira como a intuição humana funciona. Como resultado, não temos uma maneira óbvia de validar ou contestar o modelo ' decisão. O infeliz exemplo de Isaacson ilustra o que isso pode levar. Queremos depender cegamente do computador em algo tão importante?

Observe que esta é uma explicação para um leigo. Eu evitei várias questões potencialmente controversas aqui. Por exemplo, eu não queria dizer que os distritos escolares com dados demográficos de baixa renda devem ter um desempenho pior, porque isso não pareceria bom para um leigo.

Além disso, assumi que o objetivo é realmente fornecer uma descrição razoavelmente justa do modelo. Mas tenho certeza de que esse não era o objetivo do NYT aqui. Então, pelo menos parte da razão pela qual a explicação deles é ruim é FUD intencional, na minha opinião.

SheldonCooper
fonte

Talvez eu mudasse a segunda frase do último parágrafo para dizer: "Embora 65 de seus 66 alunos tenham obtido 'proficiência' na prova estadual, eles provavelmente teriam a mesma pontuação, mesmo se tivessem um professor inepto".

Wayne

11

"Sua pontuação de ensino depende de quão bem seus alunos se saíram em comparação com uma previsão feita com base em

O que eles sabiam antes, medido por um pré-teste,
Quão bem pensamos que os alunos podem aprender com base no que sabemos sobre eles individualmente (suas "características"),
E quão bem os alunos se saem, em média, em seu distrito, escola e sala de aula (se houver outros professores em sua sala de aula).

"Em outras palavras, estamos avaliando você com base na quantidade de aprendizado que foi medida, depois de considerar a preparação e as características de seus alunos e as performances típicas de todos os alunos em ambientes como o seu, com os recursos disponíveis para você.

"Dessa forma, sua pontuação reflete o que você contribuiu para o desempenho dos alunos, na medida em que podemos determinar isso. É claro que não podemos saber tudo: sabemos que você teve alunos únicos e especiais e que a situação que você enfrentou nunca pode ser duplicada. Portanto, nós saiba que essa pontuação é apenas uma estimativa que reflete imperfeitamente o quão bem você ensinou, mas é uma estimativa mais justa e precisa do que aquela baseada apenas no pós-teste ou nos ganhos brutos obtidos por sua turma. "

whuber
fonte

2

NB Por favor, não me atribua esses pensamentos! Estou apenas fazendo o possível para articular e defender o modelo declarado, conforme solicitado. Se este modelo é apropriado, aplicável, adequado, etc., é uma questão completamente separada.

whuber

(+1) O último parágrafo está muito bem colocado.

chl

2

Não há apenas nada para entender aqui.

Bem, ok, é apenas um modelo de regressão linear padrão. Parte do pressuposto de que a pontuação de um aluno pode ser descrita como uma função linear de vários fatores, incluindo coeficientes de eficiência da escola e do professor - portanto, ele compartilha todos os problemas padrão dos modelos lineares, principalmente o fato de ser uma grande aproximação de um método não linear. mundo e pode funcionar perfeitamente ou de maneira embaraçosa, dependendo de uma situação e de quão longe alguém tentaria extrapolar com ela. (No entanto, é de se esperar que os autores do representante técnico o tenham verificado e descobriram que está tudo bem ;-)).

Mas o problema real é que essa é uma ferramenta analítica e não deve ser usada para avaliar as realizações das pessoas - desta forma (totalmente, independentemente de as notas serem boas ou não) todos os avaliadores que tentam entender sua marca (provavelmente na esperança otimizá-lo) só encontrará confusão sem esperança, como neste caso.

fonte

3

"não há nada para entender aqui - é apenas um modelo de regressão linear padrão" - teehee ... como se isso fosse um consolo para os mathphobics. Suponho que você nunca teve o prazer de ministrar cursos de graduação em estatística para, digamos, sociologia ou, se Deus me ajudar, cursos de comunicação.

Fabian 7/03

@fabians Isso só prova meu argumento - confrontar pessoas com matemática mais complexa do que contar é a maior falha dessa abordagem =] Mas vou tentar reformulá-la.

Essa é uma crítica válida - especialmente a parte sobre assumir a linearidade - mas não responde realmente à pergunta original (a menos que sua intenção seja ofender o hipotético "leigo").

whuber

Equações nas notícias: traduzindo um modelo de vários níveis para um público geral

Respostas: