Teste de robustez da correlação com a não normalidade

Estou tentando conciliar duas declarações aparentemente opostas sobre robustez e não normalidade da estatística do teste de correlação de Pearson (onde nulo significa "sem correlação").

Esta resposta do CV diz:

Muito não robusto.

Este manual do biostat diz:

[...] numerosos estudos de simulação mostraram que a regressão e correlação linear não são sensíveis à não normalidade; uma ou ambas as variáveis de medição podem ser muito fora do normal, e a probabilidade de um falso positivo (P <0,05, quando a hipótese nula é verdadeira) ainda é de cerca de 0,05 ( Edgell e Noon 1984 , e suas referências).

o que estou perdendo?

hypothesis-testing correlation p-value robust max
fonte

As duas fontes diferentes que você cita parecem atribuir significados diferentes à noção de "afastamento da normalidade". Uma amostra é obtida de uma distribuição normal, mas onde uma única observação é substituída por um valor arbitrário considerado como uma forma aceitável de desvio da normalidade? Nesse caso, é evidente que o manual do biostat (e o artigo de Edgell e Noon mencionado) pode sair facilmente, mostrando-se errado.

usar o seguinte comando

@ user603 A regressão não exige distribuição normal de uma ou de ambas as variáveis: a suposição está embutida no formalismo matemático: where . Observe a última parte: são os resíduos e não as variáveis que são distribuídas normalmente. Eles empiricamente verificam: (1) simule usando uma distribuição uniforme de, digamos, 0 a 100; (2) simule ; (3) regresse em e recupere , . Agora visualizar os histogramas de e .

Y = β_{0} + β_{X} X + ε

$Y=\beta_{0}+\beta_{X}X+\varepsilon$

ε \sim N (0, σ)

$\varepsilon \sim \mathcal{N}(0,\sigma)$

X

$X$

Y = 3 + 0.5 \times X + N (0, 1)

$Y=3 + 0.5 \times X+\mathcal{N}(0,1)$

Y

$Y$

X

$X$

β_{0} \approx 3

$\beta_{0}\approx 3$

β_{X} \approx 0.5

$\beta_{X}\approx 0.5$

X

$X$

Y

$Y$

Alexis27

@ Alexis: Não sei se entendi a conexão entre seu comentário e o meu. Eu não acho que eu reivindiquei nada sobre regressão (ou normalidade)

user603

@ user603 Certeza de que você fez uma afirmação sobre a citação de Edgell e Meio-dia - particularmente este pedaço: "vários estudos de simulação mostraram que a regressão e correlação linear não são sensíveis à não normalidade; uma ou ambas as variáveis de medição podem ser muito não normais" - que é exatamente isso.

Alexis28

O jornal Edgell e Noon entendeu errado.

fundo

O artigo descreve o resultado de conjuntos de dados simulados $(x_i,y_i)$ com coordenadas independentes extraídas das distribuições Normal, Exponencial, Uniforme e Cauchy. (Embora relate duas "formas" do Cauchy, elas diferiam apenas na forma como os valores eram gerados, o que é uma distração irrelevante.) Os tamanhos dos conjuntos de dados $n$ ("tamanho da amostra") variou de $5$ para $100$ . Para cada conjunto de dados, o coeficiente de correlação da amostra de Pearson $r$ foi computado, convertido em $t$ estatística via

t = r \sqrt{\frac{n - 2}{1 - r^{2}}},

$t = r \sqrt{\frac{n-2}{1-r^2}},$

(consulte a Equação (1)) e referiu isso a um Estudante $t$ distribuição com $n-2$ graus de liberdade usando um cálculo bicaudal. Os autores realizaram $10,000$ simulações independentes para cada um dos $10$ pares dessa distribuição e cada tamanho de amostra, produzindo $10,000$ $t$ estatísticas em cada um. Finalmente, eles tabularam a proporção de $t$ estatísticas que pareciam ser significativas no $\alpha=0.05$ nível: ou seja, o $t$ estatísticas no exterior $\alpha/2 = 0.025$ caudas do aluno $t$ distribuição.

Discussão

Antes de prosseguirmos, observe que este estudo analisa apenas a robustez de um teste de correlação zero com a não normalidade. Isso não é um erro, mas é uma limitação importante a ser lembrada.

Há um erro estratégico importante neste estudo e um erro técnico flagrante.

O erro estratégico é que essas distribuições não são tão normais. Nem as distribuições Normal nem Uniforme causarão problemas aos coeficientes de correlação: a primeira por design e a segunda porque não pode produzir outliers (que é o que causa a correlação de Pearson nãoser robusto). (O Normal precisava ser incluído como referência, para garantir que tudo estivesse funcionando corretamente.) Nenhuma dessas quatro distribuições é um bom modelo para situações comuns em que os dados podem ser "contaminados" por valores de uma distribuição com um local diferente. completamente (como quando os sujeitos realmente vêm de populações distintas, desconhecidas pelo pesquisador). O teste mais severo vem do Cauchy, mas, por ser simétrico, não detecta a sensibilidade mais provável do coeficiente de correlação a valores extremos unilaterais .

O erro técnico é que o estudo não examinou as distribuições reais dos valores-p: analisou apenas as taxas de dois lados para $\alpha=0.05$ .

(Embora possamos desculpar muito do que aconteceu 32 anos atrás devido a limitações na tecnologia de computação, as pessoas examinavam rotineiramente distribuições contaminadas, distribuições de barras, distribuições Lognormal e outras formas mais graves de não normalidade; e isso é rotineiro por mais tempo. explore uma ampla variedade de tamanhos de teste, em vez de limitar os estudos a apenas um tamanho.)

Corrigindo os erros

Abaixo, forneço Rcódigo que reproduzirá completamente este estudo (em menos de um minuto de cálculo). Mas faz algo mais: exibe as distribuições de amostra dos valores-p. Isso é bastante revelador, então vamos pular e observar esses histogramas.

Primeiro, aqui estão os histogramas de grandes amostras das três distribuições que observei, para que você possa ter uma idéia de como elas não são normais.

O exponencial é distorcido (mas não terrivelmente); o Cauchy tem caudas longas (de fato, alguns valores entre os milhares foram excluídos dessa trama para que você possa ver seu centro); o contaminado é um normal padrão com uma mistura de 5% de um normal normal deslocada para $10$ . Eles representam formas de não normalidade frequentemente encontradas nos dados.

Como Edgell e Noon tabularam seus resultados em linhas correspondentes a pares de distribuições e colunas para tamanhos de amostra, eu fiz o mesmo. Não precisamos examinar toda a gama de tamanhos de amostra que eles usaram: o menor ( $5$ ), maior ( $100$ ) e um valor intermediário ( $20$ ) vai dar certo. Mas, em vez de tabular frequências de cauda, plotei as distribuições dos valores-p.

Idealmente, os valores-p terão distribuições uniformes: as barras devem estar todas perto de uma altura constante de $1$ , mostrado com uma linha cinza tracejada em cada plotagem. Nestas parcelas existem 40 barras, com espaçamento constante de $0.025$ Um estudo de $\alpha=0.05$ incidirá na altura média da barra mais à esquerda e à direita (as "barras extremas"). Edgell e Noon compararam essas médias com a frequência ideal de $0.05$ .

Como os desvios da uniformidade são proeminentes, não são necessários muitos comentários, mas antes que eu forneça alguns, procure você mesmo o restante dos resultados. Você pode identificar os tamanhos das amostras nos títulos - todos eles são executados $5-20-100$ em cada linha - e você pode ler os pares de distribuições nas legendas abaixo de cada gráfico.

O que mais deve impressioná-lo é a diferença entre as barras extremas e o restante da distribuição. Um estudo de $\alpha=0.05$ é extraordinariamente especial ! Realmente não nos diz quão bem o teste executará outros tamanhos; de fato, os resultados para $0.05$ são tão especiais que nos enganarão sobre as características deste teste.

Segundo, observe que quando a distribuição contaminada está envolvida - com sua tendência de produzir apenas valores extremos altos - a distribuição dos valores de p se torna assimétrica. Uma barra (que seria usada para testar a correlação positiva ) é extremamente alta, enquanto sua contraparte na outra extremidade (que seria usada para testar a correlação negativa ) é extremamente baixa. Em média, porém, eles quase se equilibram: dois erros enormes são cancelados!

É particularmente alarmante que os problemas tendem a piorar com amostras maiores.

Eu também tenho algumas preocupações sobre a precisão dos resultados. Aqui estão os resumos de $100,000$ iterações, dez vezes mais do que Edgell e Noon:

                                5      20     100
Exponential-Exponential   0.05398 0.05048 0.04742
Exponential-Cauchy        0.05864 0.05780 0.05331
Exponential-Contaminated  0.05462 0.05213 0.04758
Cauchy-Cauchy             0.07256 0.06876 0.04515
Cauchy-Contaminated       0.06207 0.06366 0.06045
Contaminated-Contaminated 0.05637 0.06010 0.05460

Três deles - os que não envolvem a distribuição contaminada - reproduzem partes da mesa do papel. Embora eles levem qualitativamente às mesmas conclusões (ruins) (ou seja, que essas frequências parecem bem próximas do objetivo de $0.05$ ) diferem o suficiente para questionar meu código ou os resultados do artigo. (A precisão no papel será aproximadamente $\sqrt{\alpha(1-\alpha)/n} \approx 0.0022$ , mas alguns desses resultados diferem dos do artigo muitas vezes.)

Conclusões

Ao não incluir distribuições não normais que provavelmente causam problemas para os coeficientes de correlação, e ao não examinar as simulações em detalhes, Edgell e Noon falharam em identificar uma clara falta de robustez e perderam a oportunidade de caracterizar sua natureza. Que eles encontraram robustez para testes nos dois lados do $\alpha=0.05$ O nível parece ser quase puramente um acidente, uma anomalia que não é compartilhada por testes em outros níveis.

Código R

#
# Create one row (or cell) of the paper's table.
#
simulate <- function(F1, F2, sample.size, n.iter=1e4, alpha=0.05, ...) {
  p <- rep(NA, length(sample.size))
  i <- 0
  for (n in sample.size) {
    #
    # Create the data.
    #
    x <- array(cbind(matrix(F1(n*n.iter), nrow=n),
                     matrix(F2(n*n.iter), nrow=n)), dim=c(n, n.iter, 2))
    #
    # Compute the p-values.
    #
    r.hat <- apply(x, 2, cor)[2, ]
    t.stat <- r.hat * sqrt((n-2) / (1 - r.hat^2))
    p.values <- pt(t.stat, n-2)
    #
    # Plot the p-values.
    #
    hist(p.values, breaks=seq(0, 1, 1/40), freq=FALSE,
         xlab="p-values",
         main=paste("Sample size", n), ...)
    abline(h=1, lty=3, col="#a0a0a0")
    #
    # Store the frequency of p-values less than `alpha` (two-sided).
    #
    i <- i+1
    p[i] <- mean(1 - abs(1 - 2*p.values) <= alpha)
  }
  return(p)
}
#
# The paper's distributions.
#
distributions <- list(N=rnorm,
                      U=runif,
                      E=rexp,
                      C=function(n) rt(n, 1)
)
#
# A slightly better set of distributions.
#
# distributions <- list(Exponential=rexp,
#                       Cauchy=function(n) rt(n, 1),
#                       Contaminated=function(n) rnorm(n, rbinom(n, 1, 0.05)*10))
#
# Depict the distributions.
#
par(mfrow=c(1, length(distributions)))
for (s in names(distributions)) {
  x <- distributions[[s]](1e5)
  x <- x[abs(x) < 20]
  hist(x, breaks=seq(min(x), max(x), length.out=60),main=s, xlab="Value")
}
#
# Conduct the study.
#
set.seed(17)
sample.sizes <- c(5, 10, 15, 20, 30, 50, 100)
#sample.sizes <- c(5, 20, 100)

results <- matrix(numeric(0), nrow=0, ncol=length(sample.sizes))
colnames(results) <- sample.sizes
par(mfrow=c(2, length(sample.sizes)))
s <- names(distributions)
for (i1 in 1:length(distributions)) {
  s1 <- s[i1]
  F1 <- distributions[[s1]]
  for (i2 in i1:length(distributions)) {
    s2 <- s[i2]
    F2 <- distributions[[s2]]
    title <- paste(s1, s2, sep="-")
    p <- simulate(F1, F2, sample.sizes, sub=title)
    p <- matrix(p, nrow=1)
    rownames(p) <- title
    results <- rbind(results, p)
  }
}
#
# Display the table.
#
print(results)

Referência

Stephen E. Edgell e Sheila M. Noon, Efeito da violação da normalidade no $t$ Teste do coeficiente de correlação. Psychological Bulletin 1984, Vol., 95, No. 3, 576-583.

whuber
fonte

Uau. Portanto, não apenas os dois autores do artigo, mas muitas pessoas que trabalham no campo hoje (incluindo o autor do blog e o Manual de Bioestatística que mencionei) têm um equívoco realmente infeliz da técnica que é realmente crítica para suas pesquisas.

max

Desde que a pesquisa envolva apenas um desses testes em cada artigo publicado (para que as correções de comparações múltiplas sejam desnecessárias), não há chance de discrepâncias graves e

α = 0.05

$\alpha=0.05$ é o limite de significância, você pode estar bem. Existem boas razões, no entanto, que a maioria dos livros sobre regressão múltipla e correlação escritos desde o início dos anos 80 incluíram seções importantes sobre identificação, detecção e enfrentamento da não normalidade. De fato, subcampos estatísticos inteiros (estimativa robusta e EDA) que foram desenvolvidos para lidar com essa situação surgiram e desapareceram nesse meio tempo.

whuber

+1 Esta é uma ótima resposta. Um pequeno detalhe: você está dizendo que "um estudo de α = 0,05 é extraordinariamente especial!" deixa a impressão de que os autores consideraram outra

α

$\alpha$ , eles teriam observado resultados radicalmente diferentes (mesmo seguindo a mesma metodologia). Mas não está claro em seus histogramas que esse seria o caso, por exemplo,

α = 0.01

$\alpha=0.01$ ou

0.001

$0.001$ ou outros valores comuns, porque não há resolução suficiente. Se o resultado desses alfas for aproximadamente o mesmo (tamanhos reais de teste de 0,4 a 0,8),

α = 0.05

$\alpha=0.05$ talvez não seja "extraordinariamente" especial.

Ameba

@amoeba Você está certo: esse é um bom conjunto de observações. Acredito que você encontrará, no entanto, que as tendências acentuadas que emergem perto das caudas nesta resolução se tornam ainda mais fortes quando mostradas em resoluções mais altas. Obviamente, isso exigirá simulações maiores - pelo menos 20 vezes maior. Isso é viável para qualquer pessoa interessada.