Por que uma mistura de duas variáveis ​​normalmente distribuídas é apenas bimodal se suas médias diferem em pelo menos duas vezes o desvio padrão comum?

28

Sob mistura de duas distribuições normais:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Uma mistura de duas distribuições normais tem cinco parâmetros para estimar: as duas médias, as duas variações e o parâmetro de mistura. Uma mistura de duas distribuições normais com desvios padrão iguais é bimodal somente se suas médias diferirem pelo menos duas vezes o desvio padrão comum . "

Estou procurando uma derivação ou explicação intuitiva sobre por que isso é verdade. Acredito que possa ser explicado na forma de um teste t de duas amostras:

μ1-μ2σp

onde σp é o desvio padrão combinado.

M Waz
fonte
1
a intuição é que, se os meios estiverem muito próximos, haverá muita sobreposição na massa das 2 densidades, de modo que a diferença nos meios não será vista porque a diferença será apenas identificada com a massa dos dois densidades. Se os dois meios são diferentes o suficiente, então as massas das duas densidades não se sobrepõem muito e a diferença nos meios será discernível. Mas eu gostaria de ver uma prova matemática disso. É uma afirmação interessante. Eu nunca vi isso antes.
mlofton 5/07
2
Mais formalmente, para uma mistura 50:50 de duas distribuições normais com o mesmo SD se você escrever a densidade f ( x ) = 0,5 g 1 ( x ) + 0,5 g 2 ( x ) na forma completa, mostrando os parâmetros, verá que sua segunda derivada muda de sinal no ponto médio entre as duas médias quando a distância entre médias aumenta de abaixo de 2 σ para cima. σ,f(x)=0,5g1(x)+0,5g2(x)2σ
BruceET
1
Consulte "Critério de Rayleigh", en.wikipedia.org/wiki/Angular_resolution#Explanation
Carl Witthoft em

Respostas:

53

Esta figura do artigo vinculado nesse artigo da wiki fornece uma boa ilustração: insira a descrição da imagem aqui

A prova que eles fornecem é baseada no fato de que as distribuições normais são côncavas dentro de um DP de sua média (o DP é o ponto de inflexão do pdf normal, de onde ele vai de côncavo a convexo). Assim, se você adicionar dois PDFs normais (em proporções iguais), desde que suas médias diferam em menos de dois DPs, a soma-pdf (ou seja, a mistura) será côncava na região entre os dois meios e, portanto, o máximo global deve estar no ponto exatamente entre as duas médias.

Referência: Schilling, MF, Watkins, AE, & Watkins, W. (2002). A altura humana é bimodal? The American Statistician, 56 (3), 223-229. doi: 10.1198 / 00031300265

Ruben van Bergen
fonte
11
+1 Este é um argumento agradável e memorável.
whuber
2
A legenda da figura também fornece uma boa ilustração da ligadura 'fl' sendo processada incorretamente em 'inflexão' :-P
nekomatic 08/07
2
@Axeman: Obrigado por adicionar essa referência - já que isso explodiu um pouco, eu estava planejando adicioná-la, já que estou apenas repetindo o argumento deles e não quero levar muito crédito por isso.
Ruben van Bergen em
14

É um caso em que as imagens podem enganar, porque esse resultado é uma característica especial das misturas normais : um analógico não se aplica necessariamente a outras misturas, mesmo quando os componentes são distribuições unimodais simétricas! Por exemplo, uma mistura igual de duas distribuições de Student t separadas por um pouco menos que o dobro do seu desvio padrão comum será bimodal. Para uma percepção real, precisamos fazer algumas contas ou apelar para propriedades especiais das distribuições normais.


Escolher as unidades de medição (por recentragem e rescaling conforme necessário) para colocar os meios das distribuições dos componentes em ±μ, μ0, e para fazer a sua unidade variância comum. Seja p, 0<p<1, a quantidade do componente médio maior na mistura. Isso nos permite expressar a densidade da mistura em plena generalidade como

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Como as densidades de ambos os componentes aumentam onde x<μ e diminuem onde x>μ, os únicos modos possíveis ocorrem onde μxμ. Encontre-os diferenciando f em relação a x e configurando-o para zero. Limpando quaisquer coeficientes positivos obtidos

0=e2xμp(xμ)+(1p)(x+μ).

fe2xμ

f(x;μ,p)(1+x2μ2)xμ.

μ<x<μ,f(1μ2+x2).μ1,μ1

2μ,

Uma mistura de distribuições normais é unimodal sempre que as médias são separadas por não mais que o dobro do desvio padrão comum.

Isso é logicamente equivalente à afirmação na pergunta.

whuber
fonte
12

Comentário acima colado aqui para continuidade:

f(x)=0.5g1(x)+0.5g2(x)

Comentário continuado:

σ=1.3σ,2σ,σ,

insira a descrição da imagem aqui

Código R para a figura:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
fonte
1
todas as respostas foram ótimas. obrigado.
mlofton 6/07
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Bons pontos. Na verdade, o que eu quis dizer com linguagem abreviada 'flat' era zero segunda derivada exatamente no ponto médio.
BruceET