Comparação das caudas de duas distribuições amostrais

13

Eu tenho dois conjuntos de dados que são aproximadamente centrados em torno de zero, mas eu suspeito que eles tenham caudas diferentes. Conheço alguns testes para comparar a distribuição com uma distribuição normal, mas gostaria de comparar diretamente as duas distribuições.

Existe um teste simples para comparar a gordura da cauda de 2 distribuições ?

Obrigado
frança

RockScience
fonte
A etiqueta "caudas de gordura" é realmente significativa (para perguntas futuras)?
chl
@chl Você me diz que certamente não sou tão experiente quanto você em estatística. Mas, na IMO, é um viés clássico subestimar a importância das caudas. Você leu o trabalho de Mandelbrot? As caudas gordas são muito importantes nas estatísticas aplicadas para finanças e a crise de crédito de 2008 veio em parte de alguns modelos de preços que estavam assumindo normalidade e subestimando as caudas gordas de alguma distribuição de correlação. Podemos discutir isso em outro segmento :)
RockScience
1
Esta questão é potencialmente interessante, mas algum esclarecimento seria bem-vindo. Você está preocupado com uma cauda ou ambas? Como você mede a "gordura"? (Você está disposto a mudar e redimensionar as duas distribuições para fazer a comparação, por exemplo?) Como você mede os desvios na "gordura"? Se você considerar um teste de hipótese, qual será a hipótese alternativa, precisamente?
whuber
@RockScience, eu tenho duas distribuições e quero comparar apenas as caudas, você conseguiu fazer isso? Eu sei que você pode calcular a curtose, mas como você testou se as duas caudas são diferentes?
precisa saber é o seguinte

Respostas:

2

Construindo um limite, dizendo lambda, podemos testar a igualdade de duas médias ou variações das duas distribuições restritas na região da cauda (\ lambda, infinito) com base em dois conjuntos de dados de observações que caem nessa região da cauda. Obviamente, o teste t de duas amostras ou o teste F podem estar OK, mas não devem ser positivos, pois as variáveis ​​aleatórias restritas nessa região da cauda não são normais, mesmo as originais.

Lin-An Chen
fonte
A teoria dos valores extremos estuda tais distribuições truncadas: assintoticamente, a distribuição das caudas geralmente pertence à família Pareto generalizada . Pode-se também tentar ajustar os dados a essa família de distribuições e comparar os parâmetros.
Vincent Zoonekynd
@Vincent Uma cauda pode ter praticamente qualquer distribuição. A teoria dos valores extremos diz pouco sobre as caudas: concentra-se na distribuição dos máximos (ou mínimos) das amostras de iid, o que é uma coisa bem diferente.
whuber
1

Que tal ajustar a distribuição lambda generalizada e os intervalos de confiança de bootstrap nos terceiro e quarto parâmetros?

Mike Lawrence
fonte
2
Por que essa família de distribuições seria particularmente boa para esse problema e não para outras famílias como as distribuições de Pearson?
whuber
1

O teste Chi Square (teste de qualidade de ajuste) será muito bom na comparação das caudas de duas distribuições, pois está estruturado para comparar duas distribuições por intervalos de valores (representados graficamente por um histograma). E, as caudas consistirão na maioria dos baldes.

Embora este teste se concentre em toda a distribuição, não apenas na cauda, ​​você pode observar rapidamente quanto do valor ou divergência do quadrado de Chi é derivado pela diferença na gordura da cauda.

Observe que o histograma derivado pode fornecer visualmente muito mais informações sobre a respectiva gordura das caudas do que qualquer significância estatística relacionada ao teste. Uma coisa é afirmar que a gordura da cauda é estatisticamente diferente. Outra é observá-lo visualmente. Dizem que uma imagem vale mais que mil palavras. Às vezes, também vale mais que mil números (faz sentido, dado que os gráficos encapsulam todos os números).

Sympa
fonte
3
Parece-me que o teste do qui quadrado será particularmente fraco na identificação de diferenças nas caudas. Se as caudas são cobertas por muitas caixas, então - porque são caudas! - pode haver poucos dados em qualquer uma das caixas, invalidando a aproximação do qui-quadrado. Se as caudas são cobertas por poucas caixas, você perde quase todo o poder de discriminar suas formas, e o que você consegue discriminar pode não ser muito relevante ou útil. (Um problema que enfrentamos aqui é que "a gordura da cauda" não foi definida, portanto a pergunta é realmente muito vaga para responder bem.)
whuber
@ Whuber, não sei dizer se concordo com o seu comentário, porque não entendo completamente um dos seus pontos. O que você quer dizer exatamente com "invalidando a aproximação do qui-quadrado"?
precisa
O teste do qui-quadrado é baseado em uma aproximação da teoria normal à verdadeira distribuição da estatística do qui-quadrado. Normalmente, essa aproximação fica ruim quando as populações de
caixotes
@ whuber, obrigado pela explicação. Em vista disso, acho que a primeira frase do seu comentário inicial pode não ser tão sutil quanto você pode ter se importado ("o teste do quadrado de Chi será particularmente ruim na identificação de diferenças nas caudas"). Talvez a declaração mais apropriada tenha sido "depende ..." Este teste tem vários méritos, inclusive forçando você a definir os compartimentos relevantes. E, igualmente importante, facilite a construção de um histograma. Concedido se você tiver menos de 5 observações em uma lixeira, perderá a precisão conforme explicado.
Sympa
@ Gaetan Agradeço a atenção às nuances, mas neste caso o julgamento parece justificado. Comparado a muitos outros métodos disponíveis para comparar distribuições, o teste do Qui-quadrado não se mantém bem. Se você "definir compartimentos relevantes" com base nos próprios dados, o teste será inválido. Além disso, um histograma geralmente não é uma maneira útil de observar detalhes de distribuições. No entanto, reluto em propor alternativas porque o problema está mal definido: o que significa para duas distribuições ter a mesma "gordura das caudas"? A curtose é uma possibilidade, mas é uma medida grosseira.
whuber