Como posso interpretar um gráfico de porcentagem de corte versus média aparada?

12

Para parte de uma pergunta de lição de casa, fui solicitado a calcular a média aparada de um conjunto de dados excluindo a menor e a maior observação e interpretando o resultado. A média aparada foi menor que a média não aparada.

Minha interpretação foi que isso ocorreu porque a distribuição subjacente estava inclinada positivamente, de modo que a cauda esquerda é mais densa que a direita. Como resultado dessa distorção, a remoção de um dado alto arrasta a média mais para baixo do que a remoção de um valor baixo, porque, informalmente, há mais dados baixos "esperando para tomar o seu lugar". (Isso é razoável?)

x¯tr(k)k=1/n,2/n,...,(n2-1)/n. Eu tenho uma forma parabólica interessante: Gráfico de porcentagem de corte versus média aparada;  forma uma curva côncava que parece aproximadamente parabólica

Não tenho muita certeza de como interpretar isso. Intuitivamente, parece que a inclinação do gráfico deve ser (proporcional à) assimetria negativa da parte da distribuição dentrokpontos de dados da mediana. (Essa hipótese confirma os meus dados, mas eu só tenhon=11, então não estou muito confiante.)

Esse tipo de gráfico tem um nome ou é comumente usado? Que informações podemos coletar deste gráfico? Existe uma interpretação padrão?


Para referência, os dados são: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

wchargin
fonte

Respostas:

11

@gung e @kjetil b. halvorsen estão corretos.

Eu encontrei esses gráficos em

Rosenberger, JL e M. Gasko. 1983. Comparando estimadores de localização: médias aparadas, medianas e trimestres. Em Entendendo a análise de dados robusta e exploratória , Eds. DC Hoaglin, F. Mosteller e JW Tukey, 297–338. Nova York: Wiley.

e

Davison, AC e DV Hinkley. 1997. Métodos de inicialização e sua aplicação. Cambridge: Cambridge University Press.

e dar mais exemplos em

Cox, NJ 2013. Aparar a gosto. Stata Journal 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [acesso gratuito ao pdf]

que discutiu muitos aspectos dos meios aparados.

Até onde eu sei, o gráfico não tem um nome distinto. Um nome distinto para todo enredo possível seria realmente um pequeno pesadelo: a terminologia gráfica já é uma bagunça horrível. Eu chamaria isso apenas de um gráfico da média aparada versus número, fração ou porcentagem aparada (revertendo assim a redação do OP).

Para mais pequenos comentários sobre "versus", veja minha resposta em Heteroscedasticity in Regression

EDIT: Para mais informações sobre versus (apenas especialistas em idiomas), veja aqui .

Nick Cox
fonte
10

Eu nunca ouvi falar desse gráfico, mas acho que é bem legal; provavelmente alguém já fez isso antes. O que você pode fazer com isso é ver como a média muda e / ou se estabiliza se você considerar diferentes proporções de seus dados como discrepantes. A razão pela qual você obtém a forma parabólica é que sua distribuição (inicial) é inclinada corretamente como um todo, mas o grau de inclinação não é o mesmo no centro da distribuição. Para comparação, considere os gráficos de densidade do kernel abaixo.

insira a descrição da imagem aqui

À esquerda, seus dados são cortados um a um. À direita estão estes dados y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416):, que são quantis de uma distribuição normal normal logarítmica tirada de percentis igualmente espaçados e multiplicados por 20 para tornar o intervalo de valores semelhante.

Seus dados começam inclinados para a direita, mas na linha 5, eles são inclinados para a esquerda; portanto, o corte de mais dados começa a trazer a média de volta. Os dados à direita mantêm uma inclinação semelhante à medida que o corte continua.

Abaixo está o gráfico para os dados lognormal e uniforme ( z = 1:11sem inclinação - perfeitamente simétrico).

insira a descrição da imagem aqui insira a descrição da imagem aqui

Repor a Monica
fonte
4

Eu não acho que esse tipo de gráfico tenha um nome, mas o que você está fazendo é razoável e sua interpretação, eu acho, válida. Acho que o que você está fazendo está relacionado à função Influência de Hampel, consulte https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, especialmente a seção sobre a função de influência empírica. E sua plotagem certamente poderia estar relacionada a alguma medida da distorção dos dados, pois, se seus dados fossem perfeitamente simétricos, a plotagem seria plana. Você deveria investigar isso!

            EDIT     

Uma extensão desse gráfico é mostrar também o efeito do uso de aparamentos diferentes à esquerda e à direita. Como isso não é implementado na meanfunção usual com argumento trimem R, escrevi minha própria função média aparada. Para obter um gráfico mais suave, uso a interpolação linear quando a fração de recorte implica na remoção de um número não inteiro de pontos. Isso fornece a função:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Em seguida, simulo alguns dados e mostra o resultado como um gráfico de contorno:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

dando este resultado:

gráfico de contorno mostrando o efeito do corte

kjetil b halvorsen
fonte