Como 'somar' um desvio padrão?

68

Eu tenho uma média mensal para um valor e um desvio padrão correspondente a essa média. Agora estou computando a média anual como a soma das médias mensais, como posso representar o desvio padrão da média somada?

Por exemplo, considerando a produção de um parque eólico:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Podemos dizer que no ano médio o parque eólico produz 10.358 MWh, mas qual é o desvio padrão correspondente a esse valor?

klonq
fonte
3
Uma discussão após uma resposta agora excluída observou uma possível ambiguidade nesta pergunta: você procura o DP das médias mensais ou deseja recuperar o DP de todos os valores originais dos quais essas médias foram construídas? Essa resposta também apontou corretamente que, se você quiser a última, precisará do número de valores envolvidos em cada uma das médias mensais.
whuber
11
Um comentário a outra resposta excluída apontou que é estranho calcular uma média como uma soma : certamente você quer dizer que está fazendo a média das médias mensais. Mas se o que você deseja é estimar a média de todos os dados originais, esse procedimento geralmente não é bom: é necessária uma média ponderada . E, é claro, não é possível dar uma boa resposta à sua pergunta sobre o "DP para a média resumida" até que fique claro o que é a "média resumida" e o que se pretende representar. Por favor, esclareça isso para nós.
whuber
@whuber Adicionei um exemplo para esclarecer. Matematicamente eu acredito que a soma das médias é igual a mensais os tempos médios de 12.
klonq
2
Sim, klonq, esse é um pedido muito razoável. No entanto, essas respostas foram excluídas pelo proprietário, não pela comunidade. Para preservar o valor deles, tentei aqui retransmitir (minha opinião) as idéias-chave que surgem nessas respostas e em seus comentários. BTW, suas edições recentes são bastante úteis: as pessoas gostam de ver dados de exemplo.
whuber
11
Bem-vindo ao site, @Hayden. Esta não é uma resposta para a pergunta do OP. Por favor, use apenas o campo "Sua resposta" para fornecer respostas. Se você tiver uma pergunta de acompanhamento, clique [ASK QUESTION]no topo e faça a pergunta lá, então podemos ajudá-lo adequadamente. Como você é novo aqui, convém fazer um tour , que contém informações para novos usuários.
gung - Restabelece Monica

Respostas:

66

Resposta curta: você calcula a média das variações ; então você pode usar a raiz quadrada para obter o desvio padrão médio .


Exemplo

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

E então o desvio padrão médio ésqrt(53,964) = 232


De Soma das variáveis ​​aleatórias distribuídas normalmente :

Se e são variáveis ​​aleatórias independentes que são normalmente distribuídas (e, portanto, também em conjunto), então sua soma também é normalmente distribuídaXY

... a soma de duas variáveis ​​aleatórias independentes distribuídas normalmente é normal, com sua média sendo a soma das duas médias e sua variação sendo a soma das duas variâncias

E da distribuição normal da soma de Wolfram Alpha :

Surpreendentemente, a distribuição de uma soma de duas variáveis ​​independentes e normalmente distribuídas normalmente com médias e variações e , respectivamente, é outra distribuição normalXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

que tem média

μX+Y=μX+μY

e variação

σX+Y2=σX2+σY2

Para seus dados:

  • soma: 10,358 MWh
  • variação: 647,564
  • desvio padrão: 804.71 ( sqrt(647564) )

insira a descrição da imagem aqui

Então, para responder sua pergunta:

  • Como 'somar' um desvio padrão ?
  • Você os soma quadraticamente:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Conceitualmente, você soma as variações e pega a raiz quadrada para obter o desvio padrão.


Porque eu estava curioso, eu queria saber a média mensal médio de energia, e seu desvio padrão . Por indução, precisamos de 12 distribuições normais que:

  • soma a uma média de 10,358
  • soma a uma variação de 647,564

Seriam 12 distribuições mensais médias de:

  • significado de 10,358/12 = 863.16
  • variação de 647,564/12 = 53,963.6
  • desvio padrão de sqrt(53963.6) = 232.3

insira a descrição da imagem aqui

Podemos verificar nossas distribuições médias mensais adicionando-as 12 vezes, para ver se são iguais à distribuição anual:

  • Média: 863.16*12 = 10358 = 10,358( correto )
  • Variação: 53963.6*12 = 647564 = 647,564( correta )

Nota : deixarei para alguém com conhecimento da matemática esotérica do látex converter minhas imagens de fórmula e formula codeem fórmulas formatadas em stackexchange.

Edit : Movi o curto, direto ao ponto, responda de cima. Porque eu precisava fazer isso de novo hoje, mas queria verificar novamente se eu calculo a média das variações .

Ian Boyd
fonte
3
Tudo isso parece assumir que os meses não estão correlacionados - você fez essa suposição explícita em algum lugar? Além disso, por que precisamos trazer a distribuição normal? Se estamos falando apenas de variação, isso parece desnecessário - por exemplo, veja minha resposta aqui
Macro
11
@ Marco Porque eu penso melhor em fotos e torna tudo mais fácil de entender.
25812 Ian Boyd
2
@Marco Além disso, acredito que esta pergunta começou no site stats.stackexchange (agora extinto). Uma parede de fórmulas é menos acessível que tratamentos mais simples, gráficos e menos rigorosos.
22612 Ian Boyd
2
Duvido que isso esteja correto. Imagine dois conjuntos de dados com cada um apenas uma única medida cada. Sua variação de cada conjunto é 0, mas o conjunto de ambas as medições tem uma variação maior que 0 se os pontos de dados diferirem.
Njol 10/10
11
@ Njol, acho que é por isso que assumimos que todas as variáveis ​​têm distribuição normal. E podemos fazer isso aqui, porque falamos sobre medição física. No seu exemplo, ambas as variáveis ​​não são normalmente distribuídas.
Tworec
11

Esta é uma pergunta antiga, mas a resposta aceita não está correta ou completa. O usuário deseja calcular o desvio padrão nos dados de 12 meses em que a média e o desvio padrão já são calculados a cada mês. Supondo que o número de amostras em cada mês seja o mesmo, é possível calcular a média e a variação da amostra ao longo do ano a partir dos dados de cada mês. Para simplificar, assuma que temos dois conjuntos de dados:

X={x1,....xN}

Y={y1,....,yN}

com valores conhecidos da média e variância da amostra, , , , .μxμyσx2σy2

Agora queremos calcular as mesmas estimativas para

Z={x1,....,xN,y1,...,yN} .

Considere que , são calculados como:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Para estimar a média e a variação sobre o conjunto total, precisamos calcular:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 que é fornecido na resposta aceita. Para variação, no entanto, a história é diferente:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Portanto, se você tiver a variação de cada subconjunto e desejar a variação de todo o conjunto, poderá calcular a média de variações de cada subconjunto, se todas tiverem a mesma média. Caso contrário, você precisará adicionar a variação da média de cada subconjunto.

Digamos que durante a primeira metade do ano produzimos exatamente 1000 MWh por dia e, na segunda metade, produzimos 2000 MWh por dia. Então a média e a variação da produção de energia na primeira e na segunda metade são 1000 e 2000 para a média e a variação é 0 para ambas as metades. Agora, há duas coisas diferentes nas quais podemos estar interessados:

1- Queremos calcular a variação da produção de energia durante todo o ano : então, calculando a média das duas variações, chegamos a zero, o que não é correto, pois a energia por dia durante todo o ano não é constante. Nesse caso, precisamos adicionar a variação de todas as médias de cada subconjunto. Matematicamente, neste caso, a variável aleatória de interesse é a produção de energia por dia. Temos estatísticas de amostra sobre subconjuntos e queremos calcular as estatísticas de amostra por mais tempo.

2- Queremos calcular a variação da produção de energia por ano: Em outras palavras, estamos interessados ​​em quanta produção de energia muda de um ano para outro ano. Nesse caso, a média da variação leva à resposta correta, que é 0, pois em cada ano produzimos exatamente 1500 MHW em média. Matematicamente, neste caso, a variável aleatória de interesse é a média da produção de energia por dia, em que a média é feita durante todo o ano.

Hooman
fonte
1

Acredito que você possa estar realmente interessado no erro padrão e não no desvio padrão.

O erro padrão da média (MEV) é o desvio padrão da estimativa da média da amostra de uma média populacional e isso fornecerá uma medida de quão boa é a sua estimativa anual de MWh.

n

s=s12+s22++s12212×n
Matteo
fonte
1

Gostaria de enfatizar novamente a incorreta parte da resposta aceita. A redação da pergunta leva à confusão.

A pergunta tem Average e StdDev de cada mês, mas não está claro que tipo de subconjunto é usado. É a média de 1 turbina eólica de toda a fazenda ou a média diária de toda a fazenda? Se for a média diária de cada mês, não será possível adicionar a média mensal para obter a média anual porque eles não têm o mesmo denominador. Se é a média da unidade, a pergunta deve indicar

Podemos dizer que, em média, cada turbina no parque eólico produz 10.358 MWh, ...

Ao invés de

Podemos dizer que, em média, o parque eólico produz 10.358 MWh, ...

Além disso, o desvio ou variância padrão é a comparação com a média do próprio conjunto. NÃO contém nenhuma informação sobre a média de todo o conjunto.

Exemplo de variação

A imagem não é necessária muito correta, mas transmite a ideia geral. Vamos imaginar a saída de 1 parque eólico como na imagem. Como você pode ver, a variação "local" não tem nada a ver com a variação "global", não importa como você os adicione ou multiplique. Você não pode prever a variação do ano usando a variação de 2 semestres. Portanto, na resposta aceita, enquanto o cálculo da soma estiver correto, a divisão por 12 para obter o número mensal não significa nada. . Das três seções, a primeira e a última seção estão erradas, a segunda está certa.

Novamente, é uma aplicação muito errada, por favor, não a siga ou isso causaria problemas. Apenas calculado para a coisa toda, usando a produção total anual / mensal de cada unidade como pontos de dados, dependendo do número anual ou mensal, essa deve ser a resposta correta. Você provavelmente quer algo assim. Este é meus números gerados aleatoriamente. Se você tiver os dados, o resultado na célula O2 deve ser sua resposta.

insira a descrição da imagem aqui

Tam Le
fonte
Muito obrigado pela imagem que me ajudou muito a entender por que a resposta aceita é incompleta e pode até estar errada. Você explicou muito bem, obrigado!
Kay
Isso mostra o perigo de votar. As pessoas que votam são as que não sabem a resposta. Ao contrário da codificação, as pessoas que votam são as que obtêm o código funcionando, quanto mais voto, melhor a resposta. Para estatística / matemática, mais votos significa apenas que é mais atraente.
Tam Le