A distribuição de Cauchy é de alguma forma uma distribuição "imprevisível"?

14

A distribuição de Cauchy é de alguma forma uma distribuição "imprevisível"?

Eu tentei fazer

cs <- function(n) {
  return(rcauchy(n,0,1))
}

em R para uma infinidade de n valores e notou que eles geram valores bastante imprevisíveis ocasionalmente.

Compare isso com, por exemplo

as <- function(n) {
  return(rnorm(n,0,1))
}

o que sempre parece fornecer uma nuvem de pontos "compacta".

Por esta foto deve parecer com a distribuição normal? No entanto, talvez isso funcione apenas para um subconjunto de valores. Ou talvez o truque seja que os desvios padrão de Cauchy (na foto abaixo) convergem muito mais lentamente (para esquerda e direita) e, portanto, permitam discrepâncias mais graves, embora com baixas probabilidades?

https://i.stack.imgur.com/zGTLU.png

Aqui, como são os rvs normais e os cs são Cauchy.

insira a descrição da imagem aqui

Mas, pela extremidade dos valores extremos, é possível que as caudas do pdf de Cauchy nunca convergam?

mavavilj
fonte
9
1. Sua pergunta é vaga / pouco clara, por isso é difícil responder; por exemplo, o que significa "imprevisível" na sua pergunta? o que você quer dizer com "desvios padrão de Cauchy" e convergência perto do fim? Você não parece estar calculando desvios padrão em lugar algum. desvios padrão de quê, exatamente? 2. Muitas postagens no site discutem propriedades do Cauchy, o que pode ajudá-lo a focar sua pergunta. Também pode valer a pena conferir a Wikipedia. 3. Sugiro evitar o termo "em forma de sino"; ambas as densidades parecem mais ou menos como um sino; basta chamá-los pelo nome.
Glen_b -Reinstala Monica 4/11
4
Certamente o Cauchy tem cauda muito pesada.
Glen_b -Reinstala Monica
1
Eu publiquei alguns fatos; espero que isso ajude você a descobrir o que deseja saber para refinar sua pergunta.
Glen_b -Reinstala Monica 4/11
1
Olhando para a sua edição, não sei ao certo o que você quer dizer quando diz "é possível que as caudas do pdf de Cauchy nunca convergam". Certamente a densidade vai para 0 como , e a função de sobrevivência também vai para 0 como . Você poderia esclarecer o que quer dizer? x |x|x
Glen_b -Reinstala Monica 4/11
2
Grandes valores discrepantes são possíveis com o normal, mas são incrivelmente raros . A densidade (e na cauda superior, particularmente relevante para os valores atípicos de pelo menos um determinado tamanho, a função de sobrevivência) das cabeças normais em direção a 0 muito mais rapidamente do que o Cauchy - mas, no entanto, ambas as densidades (e ambas as funções de sobrevivência) abordagem 0 e nem alcançá-la.
Glen_b -Reinstala Monica 4/11

Respostas:

39

Enquanto várias postagens no site abordam várias propriedades do Cauchy, não consegui localizar uma que realmente as colocasse juntas. Espero que este seja um bom lugar para coletar alguns. Eu posso expandir isso.

Caudas pesadas

Enquanto o Cauchy é simétrico e mais ou menos em forma de sino, um pouco como a distribuição normal, possui caudas muito mais pesadas (e menos "ombro"). Por exemplo, há uma probabilidade pequena, mas distinta, de que uma variável aleatória Cauchy coloque mais de 1000 intervalos interquartis da mediana - aproximadamente da mesma ordem que uma variável aleatória normal, sendo pelo menos 2,67 intervalos interquartis da sua mediana.

Variação

A variação do Cauchy é infinita.

Edit: JG diz nos comentários que é indefinido. Se considerarmos a variação como a média da metade da distância ao quadrado entre pares de valores - que é idêntica à variação quando ambos existem, então seria infinita. No entanto, pela definição usual, JG está correto. [No entanto, em contraste com os meios amostrais, que realmente não convergem para nada quando n se torna grande, a distribuição das variações da amostra continua aumentando de tamanho à medida que o tamanho da amostra aumenta; a escala aumenta proporcionalmente a n ou, equivalentemente, a distribuição da variação do log cresce linearmente com o tamanho da amostra. Parece produtivo considerar de fato que a versão da variação que produz infinito está nos dizendo algo.]

Os desvios padrão da amostra existem, é claro, mas quanto maior a amostra, maior eles tendem a ser (por exemplo, o desvio padrão médio da amostra em n = 10 está próximo a 3,67 vezes o parâmetro de escala (metade do IQR), mas em n = 100 é cerca de 11,9).

Significar

A distribuição de Cauchy nem sequer tem uma média finita; a integral da média não converge. Como resultado, mesmo as leis de grandes números não se aplicam - à medida que n cresce, a amostra significa que não converge para uma quantidade fixa (na verdade, não há nada para o qual convergir).

De fato, a distribuição da média da amostra de uma distribuição de Cauchy é a mesma que a distribuição de uma única observação (!). A cauda é tão pesada que adicionar mais valores à soma torna um valor realmente extremo provável o suficiente para compensar apenas a divisão por um denominador maior ao calcular a média.

Previsibilidade

Você certamente pode produzir intervalos de previsão perfeitamente sensíveis para observações de uma distribuição de Cauchy; existem estimadores simples e razoavelmente eficientes que têm bom desempenho para estimar local e escala e intervalos aproximados de previsão podem ser construídos - portanto, nesse sentido, pelo menos, as variáveis ​​de Cauchy são 'previsíveis'. No entanto, a cauda se estende muito longe, de modo que, se você deseja um intervalo de alta probabilidade, pode ser bastante amplo.

Se você está tentando prever o centro da distribuição (por exemplo, em um modelo de tipo de regressão), isso pode, em certo sentido, ser relativamente fácil de prever; o Cauchy tem um pico (existe muita distribuição "próxima" do centro para uma medida típica de escala), portanto o centro pode ser relativamente bem estimado se você tiver um estimador apropriado.

Aqui está um exemplo:

Gerei dados a partir de uma relação linear com erros Cauchy padrão (100 observações, interceptação = 3, inclinação = 1,5) e linhas de regressão estimadas por três métodos razoavelmente robustos aos valores extremos y: linha de grupo Tukey 3 (vermelho), regressão de Theil (verde escuro) e regressão L1 (azul). Nenhum é especialmente eficiente no Cauchy - embora todos sejam excelentes pontos de partida para uma abordagem mais eficiente.

No entanto, os três são quase coincidentes em comparação com o ruído dos dados e ficam muito perto do centro de onde os dados são executados; nesse sentido, o Cauchy é claramente "previsível".

A mediana dos resíduos absolutos é apenas um pouco maior que 1 para qualquer uma das linhas (a maioria dos dados está bem próxima da linha estimada); também nesse sentido, o Cauchy é "previsível".

relação linear com erros de Cauchy e três linhas de regressão ajustadas

Para o enredo à esquerda, há um grande desvio. Para ver melhor os dados, reduzi a escala no eixo y, à direita.

Glen_b -Reinstate Monica
fonte
1
Caudas pesadas e variação sendo infinito estão relacionadas, certo?
mavavilj
Certamente. A média indefinida também está relacionada às caudas pesadas.
Glen_b -Reinstala Monica 4/11
“Existem estimadores simples e razoavelmente eficientes que têm bom desempenho para estimar local e escala e podem ser construídos intervalos de previsão aproximados” - você pode fornecer as referências?
Carlos Cinelli
Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
gung - Restabelece Monica
@Carlos Há duas questões diferentes: (i) estimadores simples e razoavelmente eficientes para localização (como uma média adequadamente aparada) e escala no Cauchy, e (ii) métodos para construir um intervalo de previsão que funcionaria para o Cauchy. Acho que o primeiro já está coberto no local e o segundo mereceria uma pergunta própria.
Glen_b -Reinstala Monica
1

μσnμ±σμ±636,62σ

σ

A distribuição de Cauchy aparece bastante na natureza, principalmente onde você tem alguma forma de crescimento. Também aparece onde as coisas giram, como rochas rolando morros abaixo. Você o encontrará como a distribuição principal de uma feia mistura de distribuições nos retornos do mercado de ações, embora não seja em troca de itens como antiguidades vendidas em leilões. Os retornos sobre antiguidades também pertencem a uma distribuição sem média ou variação, mas não uma distribuição Cauchy. As diferenças são criadas pelas diferenças nas regras do leilão. Se você alterasse as regras da NYSE, a distribuição de Cauchy desapareceria e outra diferente seria exibida.

Para entender por que geralmente está presente, imagine que você era um licitante em um conjunto muito grande de licitantes e potenciais licitantes. Como as ações são vendidas em um leilão duplo, a maldição do vencedor não se aplica. Em equilíbrio, o comportamento racional é oferecer o valor esperado. Uma expectativa é uma forma da média. Uma distribuição de estimativas médias convergirá para a normalidade à medida que o tamanho da amostra for para o infinito.

rt=pt+1pt

Isso torna o mercado de ações muito volátil, se alguém pensa que o mercado de ações deve ter uma distribuição normal ou log-normal, mas não inesperadamente volátil se você estiver esperando as caudas pesadas.

Eu construí as distribuições preditivas bayesiana e frequentista para a distribuição de Cauchy e, considerando suas suposições, elas funcionam bem. A previsão bayesiana minimiza a divergência Kullback-Leibler, o que significa que é o mais próximo possível da natureza de uma previsão, para um determinado conjunto de dados. A previsão Frequentist minimiza a divergência média de Kullback-Leibler sobre muitas previsões independentes de muitas amostras independentes. Porém, não necessariamente apresenta um bom desempenho para qualquer amostra, como seria de esperar com uma cobertura média. As caudas convergem, mas convergem lentamente.

O Cauchy multivariado tem propriedades ainda mais perturbadoras. Por exemplo, embora obviamente não possa ser covário, já que não há meios, não tem nada semelhante a uma matriz de covariância. Erros Cauchy são sempre esféricos se nada mais estiver acontecendo no sistema. Além disso, enquanto nada covaria, nada é independente também. Para entender o quão importante isso poderia ser no sentido prático, imagine dois países que estão crescendo e que negociam entre si. Os erros em um não são independentes dos erros no outro. Meus erros influenciam seus erros. Se um país é dominado por um louco, os erros desse louco são sentidos em todo lugar. Por outro lado, como os efeitos não são lineares como seria de esperar de uma matriz de covariância, os outros países podem romper relações para minimizar o impacto.

É também isso que torna a guerra comercial de Trump tão perigosa. A segunda maior economia do mundo, depois que a União Européia declarou guerra econômica através do comércio contra todas as outras economias e está financiando essa guerra emprestando dinheiro para lutar contra as nações que declararam guerra. Se essas dependências são forçadas a relaxar, será feio de uma maneira que ninguém tem uma memória viva. Não tivemos um problema semelhante desde a administração Jackson, quando o Banco da Inglaterra embargou o comércio do Atlântico.

A distribuição de Cauchy é fascinante porque aparece em sistemas de crescimento exponencial e em curva S. Eles confundem as pessoas porque o seu dia-a-dia é cheio de densidades que têm uma média e geralmente têm uma variação. Isso torna a tomada de decisão muito difícil porque as lições erradas são aprendidas.

Dave Harris
fonte
Gosto da maneira ousada pela qual as propriedades matemáticas são mapeadas para o comportamento do mundo real nesta resposta. Mas você não deveria mencionar que um Cauchy truncado (de ambos os lados) tem todos os seus momentos finitos?
Alecos Papadopoulos
É apenas truncado à esquerda. A restrição nominal do orçamento planetário é estocástica à direita e, como os sistemas monetários não estão conservando os sistemas, eles são infinitos à direita.
Dave Harris