Como calculo um desvio padrão ponderado? No Excel?

29

Então, eu tenho um conjunto de dados de porcentagens assim:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Quero encontrar o desvio padrão das porcentagens, mas ponderado pelo volume de dados. ou seja, o primeiro e o último ponto de dados devem dominar o cálculo.

Como faço isso? E existe uma maneira simples de fazer isso no Excel?

Yahel
fonte
A fórmula com (M-1) / M está correta. Se você tiver alguma dúvida, verifique-a definindo todos os pesos iguais a 1 e obterá a fórmula clássica para estimativa imparcial do desvio padrão com (N-1) no denominador. Para whuber: incomum não significa incorreto.
1
A fórmula com (M-1) / M NÃO ESTÁ CORRETA. Imagine que você adicione um milhão de pontos com pesos de um trilionésimo. Você não muda sua resposta, independentemente de quais sejam esses pesos, mas seu termo se torna 1? Absolutamente não! Se você se importa com ( M - 1 ) / M 1 , também se importa que isso esteja errado. (M1)/M(M1)/M1
Rex Kerr
A votação mais alta está correta. Por favor, verifique itl.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf
Bo Wang
Eu me pergunto por que você quer o desvio padrão aqui? você só tem números! Como isso é número demais? Especialmente quando as porcentagens são mais facilmente explicadas e compreendidas. 4
probabilityislogic
@probabilityislogic, foi um exemplo simplificado para manter a pergunta curta.
21818 Yahel

Respostas:

35

A fórmula para o desvio padrão ponderado é:

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

Onde

N

M

wi

xi

x¯

Lembre-se de que a fórmula para média ponderada é:

x¯=i=1Nwixii=1Nwi.

Number of cases in segmentTotal number of cases

(xix¯)2

deps_stats
fonte
2
(M1)/M
4
Os pesos @Aaron nem sempre são definidos para somar à unidade, como exemplificado pelos pesos dados nesta pergunta!
whuber
2
(M1)/M
1
1(M1)/M
1
@ Mikhail Você está certo de que "incomum" e "certo" têm pouco a ver um com o outro. No entanto, resultados incomuns exigem implicitamente um pouco mais de justificativa, porque ser incomum é um indicador de que um erro pode ter sido cometido. Seu argumento é inválido: embora a fórmula realmente se reduz a uma para um estimador imparcial quando todos os pesos são iguais, isso não implica que o estimador permaneça imparcial quando pesos desiguais são usados. Não estou afirmando que sua conclusão está errada, mas apenas que até agora nenhuma justificativa válida foi oferecida.
whuber
18

As fórmulas estão disponíveis em vários lugares, incluindo a Wikipedia .

A chave é perceber que depende do significado dos pesos . Em particular, você obterá respostas diferentes se os pesos forem frequências (ou seja, você está apenas tentando evitar somar toda a sua soma), se os pesos são de fato a variação de cada medição ou se são apenas alguns valores externos que você impor seus dados.

No seu caso, parece superficialmente que os pesos são frequências, mas não são . Você gera seus dados a partir de frequências, mas não é simples ter 45 registros de 3 e 15 registros de 4 em seu conjunto de dados. Em vez disso, você precisa usar o último método. (Na verdade, tudo isso é lixo - você realmente precisa usar um modelo mais sofisticado do processo que está gerando esses números! Aparentemente, você não tem algo que solte números distribuídos normalmente, caracterizando o sistema com o desvio padrão não é a coisa certa a fazer.)

De qualquer forma, a fórmula da variação (a partir da qual você calcula o desvio padrão da maneira normal) com pesos de "confiabilidade" é

wi(xix)2wiwi2wi

x=wixi/wi

Você não tem uma estimativa para os pesos, o que suponho que você queira considerar proporcional à confiabilidade. Tomar as porcentagens do jeito que você é, tornará a análise complicada, mesmo se elas forem geradas por um processo de Bernoulli, porque se você obtiver uma pontuação de 20 e 0, terá uma porcentagem infinita. A ponderação pelo inverso do SEM é uma coisa comum e às vezes ideal. Talvez você deva usar uma estimativa bayesiana ou um intervalo de pontuação de Wilson .

Rex Kerr
fonte
2
+1. A discussão dos diferentes significados dos pesos era o que eu procurava neste tópico o tempo todo. É uma contribuição importante para todas as perguntas deste site sobre estatísticas ponderadas. (Eu sou um pouco preocupado com as observações entre parênteses relativos distribuições normais e desvios-padrão, no entanto, porque eles incorretamente sugere que o SDS não tem utilização fora um modelo baseado na normalidade.)
whuber
@ whuber - Bem, teorema do limite central para o resgate, é claro! Mas, pelo que o OP estava fazendo, tentar caracterizar esse conjunto de números com média e desvio padrão parece extremamente desaconselhável. E, em geral, para muitos usos, o desvio padrão acaba atraindo alguém a um falso sentimento de entendimento. Por exemplo, se a distribuição é qualquer coisa menos normal (ou uma boa aproximação), depender do desvio padrão dará uma má idéia do formato das caudas, quando são exatamente essas caudas com as quais você provavelmente mais se importa em estatística teste.
Rex Kerr
@RexKerr Nós dificilmente podemos culpar o desvio padrão se as pessoas colocarem interpretações que não são merecidas. Mas vamos nos afastar da normalidade e considerar a classe muito mais ampla de distribuições unimodais contínuas e simétricas com variação finita (por exemplo). Então, entre 89 e 100% da distribuição está dentro de dois desvios padrão. Isso geralmente é bastante útil saber (e 95% fica no meio, portanto nunca fica com mais de 7% de desconto); com muitas distribuições comuns, o aspecto queda simetria não muda muito (por exemplo, olhar para o exponencial, por exemplo) .... CTD
Glen_b -Reinstate Monica
CTD ... - ou se não fizermos qualquer uma dessas hipóteses, há sempre os limites de Chebyshev ordinárias, pelo menos, dizer algo sobre as caudas e desvio padrão ..
Glen_b -Reinstate Monica
1
@ Gabriel - Sim, desculpe, eu estava sendo desleixada. (Acho que as pessoas podem dizer qual é qual olhando de relance.) Corrigi minha descrição.
Rex Kerr
5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

Coluna Gsão pesos, Coluna Hsão valores

user35936
fonte
Usar Ctrl + Shift + Enter foi uma tarefa difícil para mim, mas isso parece funcionar de outra maneira.
philipkd
1

pi=viivi,
vi

μ^=ipixi,
σ^2=ipi(xiμ^)2
Aksakal
fonte
0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function
user71015
fonte
2
Bem-vindo ao site, @ uswer71015. Este parece ser apenas código. Você pode adicionar algum texto / explicação de como o código funciona e como ele responde à pergunta?
gung - Restabelece Monica