Como posso calcular a média truncada ou aparada? Digamos truncado em 10%?
Eu posso imaginar como fazê-lo se você tiver 10 entradas, mais ou menos, mas como posso fazer isso para muitas entradas?
mean
robust
truncation
trimmed-mean
Queops
fonte
fonte
Respostas:
A média aparada envolve aparar observações em porcentagem de de ambas as extremidades.P
Por exemplo: se você for solicitado a calcular uma média aparada de 10%, .P=10
Dadas observações, :Xi
Se for um número inteiro, use e apare observações nas duas extremidades.np k=np k
Média =(1/R)(Xk+1+Xk+2+…+Xn−k).
Exemplo : encontre 10% de média aparada de
2, 4, 6, 7, 11, 21, 81, 90, 105, 121
Aqui, que é um número inteiro, então apare exatamente uma observação em cada extremidade, pois . Assim, apare 2 e 121. Ficamos com observações.n=10,p=0.10,k=np=1 k=1 R=n−2k=10−2=8
Média aparada de 10% = (1/8) * (4 + 6 + 7 + 11 + 21 + 81 + 90 + 105) = 40,625
Se tem uma parte fracionária presente, a média aparada é um pouco mais complicada. No exemplo acima, se quisermos 15% de média aparada, . Isso tem parte inteira 1 e parte fracionária 0,5 está presente. . Assim, observações são mantidas.np P=15,p=0.15,n=10,k=np=1.5 R=n−2k=10−2∗1.5=10−3=7 R=7
Adendo ao comentário do @ whuber: Para permanecer imparcial (após remover 2 e 121), parece que devemos remover metade dos 4 e metade dos 105 para obter uma média aparada de(4/2+6+7+11+21+81+90+105/2)/7=38.64
Fonte: Notas da classe sobre a média aparada em P por cento
fonte
$X_i$
Além da resposta acima, se houver muitas entradas (digamos n), primeiro classificá-las leva tempo O (n log n). No entanto, existe uma solução de tempo linear.
Calcule o L-quantil P e o U (1-P) -quantil. Existe um algoritmo simples (do tipo quicksort) para isso, que é executado no tempo linear esperado. Há também um algoritmo mais complicado que é executado no pior dos casos no tempo linear. Ambos podem ser encontrados, por exemplo, em: Cormen, Leiserson, Rivest, Stein: Introdução aos Algortitmos.
Examine todos os valores e adicione aqueles entre L e U. Isso obviamente leva tempo linear.
Se houver empates e os quantis computados existirem várias vezes entre os valores, poderemos ter adicionado muitos ou poucos valores e talvez seja necessário corrigi-lo adequadamente. Como sabemos quantos números adicionamos na etapa 2 e também quantas vezes vimos L e U, isso pode ser feito em tempo constante.
Divida a soma total pelo número de somas.
Observe que a receita acima só vale a pena se n for realmente grande e classificar todas elas for um sucesso, talvez alguns milhões.
fonte