Histograma com escaninhos uniformes vs não uniformes

10

Esta pergunta descreve a diferença básica entre um histograma uniforme e um não uniforme. E essa pergunta discute a regra básica para escolher o número de posições de um histograma uniforme que otimiza (em certo sentido) o grau em que o histograma representa a distribuição a partir da qual as amostras de dados foram coletadas.

Parece que não consigo encontrar o mesmo tipo de discussão sobre "otimização" sobre histogramas uniformes versus não uniformes. Eu tenho uma distribuição não paramétrica agrupada com valores distantes distantes, de modo que um histograma não uniforme intuitivamente faz mais sentido. Mas eu gostaria de ver uma análise mais precisa das duas perguntas a seguir:

  1. Quando é que um histograma de compartimento uniforme é melhor que um histograma de compartimento não uniforme?
  2. Qual é um bom número de posições para um histograma não uniforme?

Para um histograma não uniforme, sou considerado o caso mais simples em que coletamos amostras de uma distribuição desconhecida, ordenamos os n valores resultantes e os separamos em k caixas, de modo que cada caixa tenha knnk dessas amostras (assumindo quenckpara algum número inteiro grandec). Os intervalos são formados tomando o ponto médio entre omáximodos valores no compartimentoie omínimodos valores no compartimentoi+1. Aquieaquiestão os links que descrevem esse tipo de histogramas não uniformes.knnckcmaximini+1

Alan Turing
fonte
ff^
@Glen_b Descrevo um pouco mais detalhadamente o tipo de histograma que estou considerando no caso de caixa não uniforme.
Alan Turing
Verifique sua edição. Você quis dizer "n = cm" em vez de "cn"? Também há um erro de digitação posterior.
Glen_b -Reinstala Monica
Você está tentando transmitir algo como este ?
Glen_b -Reinstala Monica
Veja também esta discussão de um compromisso entre esse e o histograma usual
Glen_b -Reinstate Monica

Respostas:

7

Quando é que um histograma de compartimento uniforme é melhor que um histograma de compartimento não uniforme?

Isso requer algum tipo de identificação do que procuraríamos otimizar; muitas pessoas tentam otimizar o erro médio quadrático médio integrado, mas, em muitos casos, acho que isso deixa de fazer sentido um histograma; frequentemente (para os meus olhos) 'super-suaviza'; para uma ferramenta exploratória como um histograma, posso tolerar muito mais rugosidade, uma vez que a rugosidade propriamente dita me dá uma noção da extensão em que devo "suavizar" a olho; Costumo pelo menos dobrar o número usual de caixas de tais regras, às vezes muito mais. Costumo concordar com Andrew Gelman sobre isso; de fato, se meu interesse estava realmente recebendo um bom AIMSE, provavelmente não deveria considerar um histograma.

Então, precisamos de um critério.

Deixe-me começar discutindo algumas das opções de histogramas de área não iguais:

Existem algumas abordagens que suavizam (menos caixas maiores) em áreas de menor densidade e têm caixas mais estreitas onde a densidade é maior - como os histogramas de "área igual" ou "contagem igual". Sua pergunta editada parece considerar a possibilidade de contagem igual.

A histogramfunção no latticepacote de R pode produzir barras de área aproximadamente igual:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

comparação de largura e área iguais

Esse mergulho à direita da lixeira mais à esquerda é ainda mais claro se você tomar as quarta raízes; com compartimentos de largura igual, não é possível vê-lo, a menos que você use de 15 a 20 vezes mais compartimentos e, em seguida, a cauda direita parece terrível.

Há um histograma de contagem igual aqui , com código R, que usa quantis de amostra para encontrar as quebras.

Por exemplo, nos mesmos dados acima, aqui estão 6 caixas com (espero) 8 observações cada:

histograma de contagem igual

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Esta pergunta do CV aponta para um artigo de Denby e Mallows cuja versão pode ser baixada daqui, que descreve um compromisso entre compartimentos de largura igual e compartimentos de área igual.

Ele também aborda as perguntas que você teve até certo ponto.

Talvez você possa considerar o problema como um dos que identificam as quebras em um processo de Poisson constante por partes. Isso levaria a funcionar assim . Há também a possibilidade relacionada de observar algoritmos do tipo clustering / classificação em (digamos) as contagens de Poisson, alguns dos quais algoritmos renderiam várias caixas. O agrupamento foi usado em histogramas 2D ( imagens , com efeito) para identificar regiões que são relativamente homogêneas.

-

Se tivéssemos um histograma de contagem igual e algum critério para otimizar, poderíamos tentar um intervalo de contagens por compartimento e avaliar o critério de alguma forma. O artigo de Wand mencionado aqui [ paper , ou working paper pdf ] e algumas de suas referências (por exemplo, os artigos de Sheather et al., Por exemplo) descrevem a estimativa da largura da bandeja "plug in" com base nas idéias de suavização do kernel para otimizar o AIMSE; de um modo geral, esse tipo de abordagem deve ser adaptável a essa situação, embora eu não me lembre de ter feito isso.

Glen_b -Reinstate Monica
fonte