Como calcular a média truncada ou aparada?

8

Como posso calcular a média truncada ou aparada? Digamos truncado em 10%?

Eu posso imaginar como fazê-lo se você tiver 10 entradas, mais ou menos, mas como posso fazer isso para muitas entradas?

Queops
fonte
1
Isso deve ser marcado como aparado em vez de truncado?
Eu diria que en.wikipedia.org/wiki/Truncated_mean funcionará.
Quéops

Respostas:

19

A média aparada envolve aparar observações em porcentagem de de ambas as extremidades.P

Por exemplo: se você for solicitado a calcular uma média aparada de 10%, .P=10

Dadas observações, :Xi

  1. Primeiro encontre = número de observações.n
  2. Reordene-os como "estatísticas de pedidos" do menor para o maior. Xi
  3. Encontre letras minúsculas = proporção aparada.p=P/100
  4. Cálculo .np

Se for um número inteiro, use e apare observações nas duas extremidades. npk=npk

R = observações restantes = .n2k

Média =(1/R)(Xk+1+Xk+2++Xnk).

Exemplo : encontre 10% de média aparada de

2, 4, 6, 7, 11, 21, 81, 90, 105, 121

Aqui, que é um número inteiro, então apare exatamente uma observação em cada extremidade, pois . Assim, apare 2 e 121. Ficamos com observações.n=10,p=0.10,k=np=1k=1R=n2k=102=8

Média aparada de 10% = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40,625

Se tem uma parte fracionária presente, a média aparada é um pouco mais complicada. No exemplo acima, se quisermos 15% de média aparada, . Isso tem parte inteira 1 e parte fracionária 0,5 está presente. . Assim, observações são mantidas.npP=15,p=0.15,n=10,k=np=1.5R=n2k=1021.5=103=7R=7

Adendo ao comentário do @ whuber: Para permanecer imparcial (após remover 2 e 121), parece que devemos remover metade dos 4 e metade dos 105 para obter uma média aparada de(4/2+6+7+11+21+81+90+105/2)/7=38.64

Fonte: Notas da classe sobre a média aparada em P por cento

Mehper C. Palavuzlar
fonte
@Mehper No último exemplo, quais três observações você removeria? Obviamente, o 2 e o 121, mas o que mais? Para permanecer imparcial, parece que você deve remover metade dos 4 e metade dos 105 para obter uma média aparada de (4/2 + 6 + 7 + 11 + 21 + 81 + 90 + 105/2) / 7 = 34,64
whuber
@ Mehper: apenas para sua informação, você pode formatar matemática escrevendo a expressão TeX entre sinais de $. Por exemplo$X_i$
nico
@ whuber: Obrigado pelo seu comentário, adicionei o seu comentário à resposta; @nico: Obrigado por me informar sobre a formatação TeX. Tentei atualizar a resposta usando o formato TeX, mas não consegui gerenciar bem. Você poderia me dar um link que explica como usar o estilo TeX em posts? Não tenho experiência em TeX.
Mehper C. Palavuzlar
1
@ Mehper: Google "Manual TeX" e faça a sua escolha. Gosto da "introdução suave" porque contém tabelas úteis e legíveis: tex.ac.uk/tex-archive/info/gentle/gentle.pdf
whuber
1
@ Mepher: claro, aqui está você! mathjax.org/help/user (observe que, se você clicar com o botão direito do mouse em qualquer fórmula matemática, terá um menu de contexto vinculado a essa página). Você também pode usar o MathML em vez do TeX (se você for muito corajoso: P).
Nico
5

Além da resposta acima, se houver muitas entradas (digamos n), primeiro classificá-las leva tempo O (n log n). No entanto, existe uma solução de tempo linear.

  1. Calcule o L-quantil P e o U (1-P) -quantil. Existe um algoritmo simples (do tipo quicksort) para isso, que é executado no tempo linear esperado. Há também um algoritmo mais complicado que é executado no pior dos casos no tempo linear. Ambos podem ser encontrados, por exemplo, em: Cormen, Leiserson, Rivest, Stein: Introdução aos Algortitmos.

  2. Examine todos os valores e adicione aqueles entre L e U. Isso obviamente leva tempo linear.

  3. Se houver empates e os quantis computados existirem várias vezes entre os valores, poderemos ter adicionado muitos ou poucos valores e talvez seja necessário corrigi-lo adequadamente. Como sabemos quantos números adicionamos na etapa 2 e também quantas vezes vimos L e U, isso pode ser feito em tempo constante.

  4. Divida a soma total pelo número de somas.

Observe que a receita acima só vale a pena se n for realmente grande e classificar todas elas for um sucesso, talvez alguns milhões.


fonte