alguém pode fornecer uma intuição sobre por que os momentos mais altos de uma distribuição de probabilidade p(x)
como o terceiro e o quarto momentos correspondem à assimetria e curtose, respectivamente?
especificamente, por que o desvio da média aumentada para a 3ª ou a 4ª potência acaba se traduzindo em uma medida de assimetria e curtose? Existe uma maneira de relacionar isso com a terceira ou quarta derivada da função?
considere esta definição de curtose:
novamente, não está claro por que aumentar dá "pico" ou por que deve inclinar. parece mágico e misterioso. ( x - μ ) 3
Edit : acompanhamento rápido. qual é a vantagem de definir momentos sobre a média e não a mediana para métricas como a curtose? quais são as propriedades dos estimadores como:
onde é mediano. presumivelmente, isso seria menos sensível aos valores discrepantes da distribuição que jogam fora a média e talvez seja uma medida mais justa do pico?
Respostas:
Há uma boa razão para essas definições, que ficam mais claras quando você olha para a forma geral em busca de momentos de variáveis aleatórias padronizadas. Para responder a esta pergunta, em primeiro lugar considerar a forma geral do º padronizado momento central :n ††
Os dois primeiros momentos centrais padronizados são os valores e , que são válidos para todas as distribuições para as quais a quantidade acima está bem definida. Portanto, podemos considerar os momentos centrais padronizados não triviais que ocorrem para os valores . Para facilitar nossa análise, definimos:ϕ1=0 ϕ2=1 n⩾3
Estes são quantidades não-negativos que dão o th absoluta de energia do condicional variável aleatória padronizados nela estar acima ou abaixo do seu valor esperado. Agora decomporemos o momento central padronizado nessas partes.n
Valores ímpares de medem a inclinação nas caudas:n para qualquer valor ímpar de , temos uma potência ímpar na equação do momento e, portanto, podemos escrever o momento central padronizado como . Deste forma, vemos que o momento central padronizado nos dá a diferença entre o º poder absoluto da variável aleatória padronizado, condicionada a que seja acima ou abaixo de sua média, respectivamente.n⩾3 ϕn=ϕ+n−ϕ−n n
Assim, para qualquer potência ímpar , obteremos uma medida que fornece valores positivos se a potência absoluta esperada da variável aleatória padronizada for maior para valores acima da média do que para valores abaixo da média, e fornecer valores negativos se a expectativa a potência absoluta é menor para valores acima da média do que para valores abaixo da média. Qualquer uma dessas quantidades poderia razoavelmente ser considerada como uma medida de um tipo de "distorção", com potências mais altas atribuindo maior peso relativo a valores que estão longe da média.n⩾3
Como esse fenômeno ocorre para todas as potências ímpares , a escolha natural para uma medida arquetípica de "assimetria" é definir como a assimetria. Esse é um momento central padronizado mais baixo do que as potências ímpares mais altas, e é natural explorar momentos de ordem inferior antes da consideração de momentos de ordem superior. Em estatística, adotamos a convenção de nos referir a esse momento central padronizado como a assimetria , uma vez que é o menor momento central padronizado que mede esse aspecto da distribuição. (Os poderes ímpares mais altos também medem tipos de assimetria, mas com ênfase cada vez maior em valores distantes da média.)n⩾3 ϕ3
Valoresn pares de medem a gordura das caudas: Para qualquer valor par de , temos uma potência par na equação do momento e, portanto, podemos escrever o momento central padronizado como . Deste forma, vemos que o momento central padronizado nos dá a soma do º poder absoluto da variável aleatória padronizado, condicionada a que seja acima ou abaixo de sua média, respectivamente.n⩾3 ϕn=ϕ+n+ϕ−n n
Assim, para qualquer potência uniforme , obteremos uma medida que fornece valores não negativos, com valores mais altos ocorrendo se as caudas da distribuição da variável aleatória padronizada forem mais grossas. Observe que este é um resultado com relação à variável aleatória padronizada e, portanto, uma alteração na escala (alteração da variância) não afeta esta medida. Pelo contrário, é efetivamente uma medida da gordura das caudas, depois de padronizada para a variação da distribuição. Qualquer uma dessas quantidades poderia razoavelmente ser considerada como uma medida de um tipo de "curtose", com potências mais altas atribuindo maior peso relativo a valores que estão longe da média.n⩾3
Como esse fenômeno ocorre para todas as potências pares , a escolha natural para uma medida arquetípica de curtose é definir como a curtose. Esse é um momento central padronizado mais baixo do que as potências pares mais altas e é natural explorar momentos de ordem inferior antes da consideração de momentos de ordem superior. Em estatística, adotamos a convenção de nos referir a esse momento central padronizado como a "curtose", uma vez que é o menor momento central padronizado que mede esse aspecto da distribuição. (Os poderes pares mais altos também medem tipos de curtose, mas com ênfase cada vez maior em valores distantes da média.)n⩾3 ϕ4
fonte
Pergunta semelhante O que há de 'momento' em 'momentos' de uma distribuição de probabilidade? Dei uma resposta física àquilo que abordava momentos.
"A aceleração angular é a derivada da velocidade angular, que é a derivada do ângulo em relação ao tempo, ou seja, . Considere-se que o segundo momento é análogo ao binário aplicado a um movimento circular, ou se preferir uma aceleração / desaceleração (também segunda derivada) do que (ou seja, angular, circular ) de movimento. da mesma forma, o terceiro momento seria seja uma taxa de variação de torque, e assim por diante, por momentos ainda mais altos, para obter taxas de variação de taxas de variação de taxas de variação, isto é, derivadas sequenciais do movimento circular ... "dωdt=α,dθdt=ω θ
Veja o link, pois talvez seja mais fácil visualizá-lo com exemplos físicos.
A assimetria é mais fácil de entender do que a curtose. Uma assimetria negativa é uma cauda esquerda mais pesada (ou mais uma direção negativa mais externa) do que na assimetria direita e positiva, o oposto.
A Wikipedia cita Westfall (2014) e implica que a alta curtose surge tanto para variáveis aleatórias que têm valores muito distantes quanto para funções de densidade com uma ou duas caudas pesadas, enquanto afirma que qualquer tendência central de dados ou densidade tem um efeito relativamente pequeno no valor da curtose. Valores baixos de curtose implicariam o contrário, ou seja, a falta de valores extremos do eixo e a relativa luminosidade de ambas as caudas.x
fonte