Por que a dependência é um problema?

8

Estou interessado em saber por que as observações dependentes são um problema em estatística. Digamos que você queira saber se há uma diferença nas notas médias dos exames entre duas escolas. Você coleta 50 observações em cada escola. Essas 50 observações são derivadas de 5 salas de aula diferentes em cada escola e há dependência nas salas de aula. Nesse caso, como os resultados do teste t seriam afetados e como eles poderiam levar a conclusões imprecisas?

luciano
fonte

Respostas:

5

O valor p para o teste t é calculado sob a suposição de que todas as observações são independentes. Probabilidades de computação (como o valor-p) são muito mais difíceis quando se lida com variáveis ​​dependentes, e nem sempre é fácil ver matematicamente onde as coisas dão errado com o teste na presença de dependência. No entanto, podemos ilustrar facilmente o problema com uma simulação.

Considere, por exemplo, o caso em que existem 5 salas de aula em cada uma das duas escolas, com 10 alunos em cada sala de aula. Sob a premissa de normalidade, o valor p do teste deve ser distribuído uniformemente no intervalo se não houver diferença na pontuação média dos testes entre todas as salas de aula. Ou seja, se realizamos muitos estudos como esse e plotamos um histograma de todos os valores de p, ele deve se parecer com a distribuição uniforme em forma de caixa .(0,1)

No entanto, se houver alguma correlação na sala de aula entre os resultados dos alunos, os valores de p não se comportam mais como deveriam. Uma correlação positiva (como seria de esperar aqui) geralmente leva a valores p muito pequenos, de modo que a hipótese nula será rejeitada com muita frequência quando na verdade for verdadeira. Uma simulação R ilustrando isso pode ser encontrada abaixo. 1000 estudos de duas escolas são simulados para diferentes correlações dentro da sala de aula. Os valores p do teste t correspondente são mostrados nos histogramas da figura. Eles são distribuídos uniformemente quando não há correlação, mas não o contrário. Na simulação, supõe-se que não haja diferenças médias entre as salas de aula e que todas as salas de aula tenham a mesma correlação dentro da sala de aula.

A conseqüência desse fenômeno é que a taxa de erro tipo I do teste t estará muito distante se houver correlações dentro da sala de aula presentes. Como exemplo, um teste t no nível de 5% é de fato aproximadamente no nível de 25% se a correlação dentro da sala de aula for 0,1! Em outras palavras, o risco de rejeitar falsamente a hipótese nula aumenta dramaticamente quando as observações são dependentes .


Simulação Observe que os eixos diferem um pouco entre os histogramas.

Código R:

library(MASS) 
B1<-1000

par(mfrow=c(3,2))

for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)

# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
    # Generate observations of 50 students from school A
    A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    # Generate observations of 50 students from school B
    B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    p.value[i]<-t.test(A,B)$p.value
}

# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}
MånsT
fonte
Sua resposta é o tipo de resposta que eu esperava obter (+1). No entanto, você poderia explicar como é possível calcular uma correlação dentro da sala de aula? Cada uma das 5 salas de aula de cada uma das 2 escolas tem 10 observações, cada uma medida em uma única variável. Meu entendimento das correlações é que elas precisariam de observações medidas em duas variáveis.
luciano
@luciano: Calcular, ou melhor, estimar essa correlação pode realmente ser complicado! No entanto, é fácil incluir no modelo usado na simulação: quando os resultados para os 10 alunos em sala de aula são gerados, eles são gerados de forma correlacionada. As duas variáveis ​​que têm correlação são o resultado do aluno e o resultado do aluno para todas as combinações de e . Basicamente, isso significa que, se um aluno em sala de aula tem um bom desempenho (em comparação com a média da escola), é mais provável que outros também tenham um bom desempenho. X i i X j j i = 1 , , 10 j = 1 , , 10ρXiiXjji=1,,10j=1,,10
MånsT
3

O problema seria que comparar as duas escolas dessa maneira combina efeitos no nível da universidade com efeitos no nível da sala de aula. Um modelo misto permitiria desemaranhá-los. Se você não estiver interessado em desembaraçá-las, ainda deve levar em consideração a amostragem em cluster (embora muitas pessoas não consigam fazer isso).

O comentário do @Nico acima trata de um problema aqui: suponha que um professor em uma escola seja realmente bom e ele / ela seja um dos professores escolhidos?

Mas outro problema é que os alunos de cada turma serão mais parecidos entre si do que com outros alunos da mesma universidade de várias maneiras: disciplinas diferentes atraem diferentes tipos de alunos por idade, sexo, experiência, força acadêmica e fraqueza etc.

Peter Flom
fonte
1

Não há nada de errado com o teste que você descreveu, porque você tirou uma amostra de ambas as escolas de maneira justa. Observações dependentes entram em jogo quando há outra variável da qual as amostras dependem. Ou seja, em uma das escolas, apenas uma turma apareceu e você decidiu receber resultados de 50 pessoas dessa turma achando que seria bom. Mas, dentro do resultado da escola, depende de uma turma; portanto, você não pode fazê-lo dessa maneira e isso dará um resultado errado que você não pode detectar por nenhum teste estatístico ... é apenas um projeto experimental errado.

Mas acho que as pessoas estão falando sobre observações dependentes de diferentes pontos de vista normalmente. É quando você pensa que pode derivar distribuições e erros de suas amostras com base em suposições de independência (a maioria das fórmulas padrão assume isso), enquanto que quando seus resultados dependem um do outro, essas regras não são exatas ...

sashkello
fonte
3
E se uma única turma de uma das duas escolas tiver um professor extremamente bom, para que as crianças dessa turma estejam acima da média das outras turmas? A pontuação média geral dessa escola pode ser maior, mas apenas por causa dessa classe, não porque a população geral dessa escola seja melhor.
Nico
E daí? Essa escola é, em média, melhor e, sim, também por causa desse professor. Se você estiver tentando comparar crianças de diferentes áreas, sim, isso entrará em jogo. Caso contrário, não há nada de errado com isso.
precisa saber é o seguinte
Bem, pode-se chegar à conclusão errada de que todas as turmas da escola são melhores (porque, digamos, as políticas do diretor), quando na verdade você está olhando para o efeito de um discrepante. Corrigindo o "efeito professor", por exemplo, modelá-lo como um fator incômodo pode corrigir esse problema.
Nico
1
Eu não acho relevante. Em um contexto de "qual escola é melhor", a escola com resultado médio mais alto é melhor, não importa qual seja a razão disso. O resultado desse experimento não está errado, você só precisa interpretá-lo corretamente. Também 1 em cada 5 classes não é uma exceção. Eu também poderia argumentar que, de fato, não existe algo de "outlier", porque, não importa quão longe esteja a média, essa é uma questão de definição de qual escola você considera melhor - a que tem média melhor ou a que tem mediana melhor ou aquela com melhores 5 melhores alunos ou o que for.
precisa saber é o seguinte