Digamos que eu tenha duas distribuições normais A e B com médias e e variações e . Quero dar uma mistura ponderada destas duas distribuições utilizando pesos e onde e . Eu sei que a média dessa mistura seria .μ B σ A σ B p q 0 ≤ p ≤ 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )
Qual seria a variação?
Um exemplo concreto seria se eu conhecesse os parâmetros para a distribuição da altura masculina e feminina. Se eu tivesse uma sala com 60% de homens, eu poderia produzir a altura média esperada para toda a sala, mas e a variação?
normal-distribution
mixture
JoFrhwld
fonte
fonte
Respostas:
A variação é o segundo momento menos o quadrado do primeiro momento; portanto, basta calcular os momentos das misturas.
Em geral, dadas as distribuições com PDFs e pesos constantes (não aleatórios) p i , o PDF da mistura éfi pi
do qual resulta imediatamente para qualquer momento quek
Escrevi para o momento k t h de f e μ ( k ) i para o momento k t h de f i .μ(k) kth f μ(k)i kth fi
Usando essas fórmulas, a variação pode ser escrita
Equivalentemente, se as variações de são dadas como σ 2 i , então μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 , permitindo que a variação da mistura f seja escrita em termos de variações e meios de seus componentes comofi σ2i μ( 2 )Eu= σ2Eu+ ( μ( 1)Eu)2 f
Em palavras, essa é a variação média (ponderada) mais a média quadrática média menos o quadrado da média média. Como o quadrado é uma função convexa, a Desigualdade de Jensen afirma que a média quadrática média não pode ser menor que o quadrado da média média. Isso nos permite entender a fórmula como declarar que a variação da mistura é a mistura das variações mais um termo não negativo que explica a dispersão (ponderada) dos meios.
No seu caso, a variação é
Podemos interpretar que essa é uma mistura ponderada das duas variâncias, , mais um termo de correção (necessariamente positivo) para levar em conta as mudanças das médias individuais em relação à média geral da mistura.pAσ2A+pBσ2B
A utilidade dessa variação na interpretação dos dados, como a apresentada na pergunta, é duvidosa, porque a distribuição da mistura não será Normal (e pode se afastar substancialmente dela, na medida em que a bimodalidade seja exibida).
fonte