intuição por momentos sobre a média de uma distribuição?

alguém pode fornecer uma intuição sobre por que os momentos mais altos de uma distribuição de probabilidade p(x)como o terceiro e o quarto momentos correspondem à assimetria e curtose, respectivamente?

especificamente, por que o desvio da média aumentada para a 3ª ou a 4ª potência acaba se traduzindo em uma medida de assimetria e curtose? Existe uma maneira de relacionar isso com a terceira ou quarta derivada da função?

considere esta definição de curtose:

$Kurtosis(X) = E[(x - \mu_{X})^4] / \sigma^4$

novamente, não está claro por que aumentar dá "pico" ou por que deve inclinar. parece mágico e misterioso. $(x-\mu)^4$ $(x-\mu)^3$

Edit : acompanhamento rápido. qual é a vantagem de definir momentos sobre a média e não a mediana para métricas como a curtose? quais são as propriedades dos estimadores como:

$MedianKurtosis(X) = E[(x - \tilde{x})^4] / \sigma^4$

onde é mediano. presumivelmente, isso seria menos sensível aos valores discrepantes da distribuição que jogam fora a média e talvez seja uma medida mais justa do pico? $\tilde{x}$

mathematical-statistics skewness moments intuition kurtosis user248237
fonte

Minha intuição na inclinação é notar que o terceiro poder preserva os negativos. Portanto, se você tiver desvios negativos maiores da média do que positivo (em termos simples), você terá uma distribuição distorcida negativa. Minha intuição para a curtose é que a quarta potência amplia grandes desvios da média muito mais do que a segunda potência. É por isso que pensamos na curtose como uma medida da gordura das caudas de uma distribuição. Observe que grandes possibilidades de x da média mu são aumentadas para a quarta potência, o que as amplifica, mas ignora o sinal.

wolfsatthedoor

Veja stats.stackexchange.com/questions/84158/…

whuber

Como a quarta potência é muito mais afetada por discrepantes do que a primeira, espero que você ganhe pouco ao analisar o quarto momento sobre a mediana - pelo menos se a robustez fosse o objetivo.

Glen_b -Reinstala Monica 9/11

Primeiro, observe que esses momentos superiores não são necessariamente medidas boas / confiáveis de assimetria / pico. Dito isso, acho que as vigas fornecem uma boa intuição física nos três primeiros momentos, por exemplo, média = balanço / escala dos feixes , variância = flexão cantiléver , assimetria = gangorra .

GeoMatt22

Você está certo, a interpretação da curtose como medida de "pico" é mágica e misteriosa. Isso porque não é de todo verdade. A curtose não diz absolutamente nada sobre o pico. Ele mede apenas as caudas (outliers). É fácil provar matematicamente que as observações próximas ao pico contribuem com uma quantidade minúscula para a medida da curtose, independentemente de o pico ser plano, pontudo, bimodal, sinusoidal ou em forma de sino.

quer

Respostas:

Há uma boa razão para essas definições, que ficam mais claras quando você olha para a forma geral em busca de momentos de variáveis aleatórias padronizadas. Para responder a esta pergunta, em primeiro lugar considerar a forma geral do º padronizado momento central : $n$ $^\dagger$

ϕ_{n} = E [(\frac{X - E [X]}{S [X]})^{n}] .

$\phi_n = \mathbb{E} \Bigg[ \Bigg( \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg)^n \text{ } \Bigg].$

Os dois primeiros momentos centrais padronizados são os valores e , que são válidos para todas as distribuições para as quais a quantidade acima está bem definida. Portanto, podemos considerar os momentos centrais padronizados não triviais que ocorrem para os valores . Para facilitar nossa análise, definimos: $\phi_1=0$ $\phi_2=1$ $n \geqslant 3$

\begin{aligned} ϕ_{n}^{+} & = E [| \frac{X - E [X]}{S [X]} |^{n} | X > E [X]] \cdot P (X > E [X]), \\ ϕ_{n}^{-} & = E [| \frac{X - E [X]}{S [X]} |^{n} | X < E [X]] \cdot P (X < E [X]) . \end{aligned}

$\begin{equation} \begin{aligned} \phi_n^+ &= \mathbb{E} \Bigg[ \Bigg| \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg|^n \text{ } \Bigg| X > \mathbb{E}[X] \Bigg] \cdot \mathbb{P}(X > \mathbb{E}[X]), \\[8pt] \phi_n^- &= \mathbb{E} \Bigg[ \Bigg| \frac{X - \mathbb{E}[X]}{\mathbb{S}[X]} \Bigg|^n \text{ } \Bigg| X < \mathbb{E}[X] \Bigg] \cdot \mathbb{P}(X < \mathbb{E}[X]). \end{aligned} \end{equation}$

Estes são quantidades não-negativos que dão o th absoluta de energia do condicional variável aleatória padronizados nela estar acima ou abaixo do seu valor esperado. Agora decomporemos o momento central padronizado nessas partes. $n$

Valores ímpares de medem a inclinação nas caudas: $n$ para qualquer valor ímpar de , temos uma potência ímpar na equação do momento e, portanto, podemos escrever o momento central padronizado como . Deste forma, vemos que o momento central padronizado nos dá a diferença entre o º poder absoluto da variável aleatória padronizado, condicionada a que seja acima ou abaixo de sua média, respectivamente. $n \geqslant 3$ $\phi_n = \phi_n^+ - \phi_n^-$ $n$

Assim, para qualquer potência ímpar , obteremos uma medida que fornece valores positivos se a potência absoluta esperada da variável aleatória padronizada for maior para valores acima da média do que para valores abaixo da média, e fornecer valores negativos se a expectativa a potência absoluta é menor para valores acima da média do que para valores abaixo da média. Qualquer uma dessas quantidades poderia razoavelmente ser considerada como uma medida de um tipo de "distorção", com potências mais altas atribuindo maior peso relativo a valores que estão longe da média. $n \geqslant 3$

Como esse fenômeno ocorre para todas as potências ímpares , a escolha natural para uma medida arquetípica de "assimetria" é definir como a assimetria. Esse é um momento central padronizado mais baixo do que as potências ímpares mais altas, e é natural explorar momentos de ordem inferior antes da consideração de momentos de ordem superior. Em estatística, adotamos a convenção de nos referir a esse momento central padronizado como a assimetria , uma vez que é o menor momento central padronizado que mede esse aspecto da distribuição. (Os poderes ímpares mais altos também medem tipos de assimetria, mas com ênfase cada vez maior em valores distantes da média.) $n \geqslant 3$ $\phi_3$

Valores $n$ pares de medem a gordura das caudas: Para qualquer valor par de , temos uma potência par na equação do momento e, portanto, podemos escrever o momento central padronizado como . Deste forma, vemos que o momento central padronizado nos dá a soma do º poder absoluto da variável aleatória padronizado, condicionada a que seja acima ou abaixo de sua média, respectivamente. $n \geqslant 3$ $\phi_n = \phi_n^+ + \phi_n^-$ $n$

Assim, para qualquer potência uniforme , obteremos uma medida que fornece valores não negativos, com valores mais altos ocorrendo se as caudas da distribuição da variável aleatória padronizada forem mais grossas. Observe que este é um resultado com relação à variável aleatória padronizada e, portanto, uma alteração na escala (alteração da variância) não afeta esta medida. Pelo contrário, é efetivamente uma medida da gordura das caudas, depois de padronizada para a variação da distribuição. Qualquer uma dessas quantidades poderia razoavelmente ser considerada como uma medida de um tipo de "curtose", com potências mais altas atribuindo maior peso relativo a valores que estão longe da média. $n \geqslant 3$

Como esse fenômeno ocorre para todas as potências pares , a escolha natural para uma medida arquetípica de curtose é definir como a curtose. Esse é um momento central padronizado mais baixo do que as potências pares mais altas e é natural explorar momentos de ordem inferior antes da consideração de momentos de ordem superior. Em estatística, adotamos a convenção de nos referir a esse momento central padronizado como a "curtose", uma vez que é o menor momento central padronizado que mede esse aspecto da distribuição. (Os poderes pares mais altos também medem tipos de curtose, mas com ênfase cada vez maior em valores distantes da média.) $n \geqslant 3$ $\phi_4$

$^\dagger$ Esta equação está bem definida para qualquer distribuição cujos dois primeiros momentos existam e que tenha variação diferente de zero. Assumiremos que a distribuição de interesse se enquadra nessa classe pelo restante da análise.

Ben - Restabelecer Monica
fonte

Pergunta semelhante O que há de 'momento' em 'momentos' de uma distribuição de probabilidade? Dei uma resposta física àquilo que abordava momentos.

"A aceleração angular é a derivada da velocidade angular, que é a derivada do ângulo em relação ao tempo, ou seja, . Considere-se que o segundo momento é análogo ao binário aplicado a um movimento circular, ou se preferir uma aceleração / desaceleração (também segunda derivada) do que (ou seja, angular, circular ) de movimento. da mesma forma, o terceiro momento seria seja uma taxa de variação de torque, e assim por diante, por momentos ainda mais altos, para obter taxas de variação de taxas de variação de taxas de variação, isto é, derivadas sequenciais do movimento circular ... " $\dfrac{d\omega}{dt}=\alpha,\,\dfrac{d\theta}{dt}=\omega$ $\theta$

Veja o link, pois talvez seja mais fácil visualizá-lo com exemplos físicos.

A assimetria é mais fácil de entender do que a curtose. Uma assimetria negativa é uma cauda esquerda mais pesada (ou mais uma direção negativa mais externa) do que na assimetria direita e positiva, o oposto.

A Wikipedia cita Westfall (2014) e implica que a alta curtose surge tanto para variáveis aleatórias que têm valores muito distantes quanto para funções de densidade com uma ou duas caudas pesadas, enquanto afirma que qualquer tendência central de dados ou densidade tem um efeito relativamente pequeno no valor da curtose. Valores baixos de curtose implicariam o contrário, ou seja, a falta de valores extremos do eixo e a relativa luminosidade de ambas as caudas. $x$

Carl
fonte

A assimetria é o ponto de equilíbrio do pdf de e a curtose é o ponto de equilíbrio do pdf de . Ambas as transformações "esticam" as caudas, curtose mais. Se o pdf de cair para a direita quando um ponto de apoio é colocado em 0, haverá uma inclinação positiva na distribuição original. Se o pdf de cair para a direita quando um ponto de apoio é colocado em 3.0, a distribuição original é mais pesada que a distribuição normal. Aqui, "peso das caudas" refere-se mais precisamente à alavancagem do que à massa. A interpretação dos mouros não está totalmente correta com as duas menções de "concentração".

Z^{3}

$Z^3$

Z^{4}

$Z^4$

Z^{3}

$Z^3$

Z^{4}

$Z^4$

Peter Westfall

@ PeterWestfall Concordo que a interpretação dos mouros é imperfeita. Linguagem precisa não é facilmente alcançável sem também ser confusa. Veja "alavancagem", por exemplo. Alavancagem significa primeiro momento e seria preciso inventar algo como "alavancagem alavancada" para o segundo momento, o que poderia confundir mais do que iluminar. Sua abordagem parece inventar um novo conceito, ou seja, "alavancagem esticada", que sugere transformações geométricas para as quais se pode também reivindicar alguns defensores que a favorecem como autoconsistentes, correndo o risco de serem controversos e não físicos para os outros. .

24220 Carl

"Alavancagem" refere-se ao primeiro momento da variável , onde . Não é ciência de foguetes.

U

$U$

U = Z^{4}

$U = Z^4$

Peter Westfall

@ PeterWestfall Não seja muito insignificante, mas você está aproveitando a alavancagem. Claro, você ainda pode usar a palavra e, se não fosse um objeto da quarta dimensão, em comparação com uma distância unidimensional, , pode até ser útil. O contexto aqui é o dos momentos e a criação de um modelo físico para os momentos. Existem várias maneiras de fazer isso, por exemplo, veja minha resposta sobre isso aqui . Em outras palavras, para colocar momentos em qualquer contexto físico, precisamos fazer mais do que acenar com a mão e invocar a quarta dimensão.

Z^{4}

$Z^4$

Z

$Z$

244 Carl

@ PeterWestfall No contexto do movimento circular, chamaríamos o segundo momento de torque , e não a alavancagem de , que, embora não seja incorreta, não traz à mente nada de físico.

Z^{2}

$Z^2$

Carl