Existem muitas regras para selecionar uma largura ideal de compartimento em um histograma 1D (veja, por exemplo )
Estou procurando uma regra que aplique a seleção das larguras ideais de barras iguais em histogramas bidimensionais .
Existe essa regra? Talvez uma das regras conhecidas dos histogramas 1D possa ser facilmente adaptada. Nesse caso, você poderia fornecer alguns detalhes mínimos sobre como fazê-lo?
optimization
histogram
Gabriel
fonte
fonte
Respostas:
Meu conselho geralmente é que é ainda mais crítico do que em 1-D suavizar sempre que possível, ou seja, fazer algo como estimativa de densidade de kernel (ou algum outro método, como estimativa de log-spline), que tende a ser substancialmente mais eficiente do que usar histogramas. Como o whuber aponta, é bem possível ser enganado pela aparência de um histograma, especialmente com poucos compartimentos e tamanhos de amostra pequenos a moderados.
Se você está tentando otimizar o erro quadrado integrado médio (MISE), digamos, existem regras que se aplicam em dimensões mais altas (o número de posições depende do número de observações, da variação, da dimensão e da "forma"), para estimativa de densidade de kernel e histogramas.
[De fato, muitos dos problemas de um também são do outro, portanto, algumas das informações neste artigo da wikipedia serão relevantes.]
Essa dependência da forma parece implicar que, para escolher da melhor maneira, você já precisa saber o que está tramando. No entanto, se você estiver preparado para fazer algumas suposições razoáveis, poderá usá-las (por exemplo, algumas pessoas podem dizer "aproximadamente gaussianas") ou, alternativamente, usar alguma forma de estimador "plug-in" do apropriado funcional.
A análise em dimensões mais altas é um pouco mais complicada (da mesma maneira que ocorre das dimensões 1-D para r para a estimativa da densidade do kernel), mas há um termo na dimensão que chega ao poder de n.
Quando a distribuição é distorcida, ou de cauda pesada ou multimodal, geralmente resultam larguras de binárias muito menores; consequentemente, os resultados normais costumam ser, na melhor das hipóteses, limites superiores quando ligados.
Obviamente, é perfeitamente possível que você não esteja interessado em erro quadrado integrado médio, mas em algum outro critério.
[1]: Wand, MP (1997),
"Escolha baseada em dados da largura do compartimento do histograma",
American Statistician 51 , 59-64.
[2]: Scott, DW (1992),
Estimativa de densidade multivariada: Teoria, Prática e Visualização ,
John Wiley & Sons, Inc., Hoboken, NJ, EUA.
fonte
No entanto, uma quarta opção seria tentar tratar sua amostra como bidimensional nativa, calcular a norma para cada um dos pontos da amostra e executar a regra Freedman – Diaconis nas normas da amostra. ou seja:
OK, aqui estão alguns códigos e uma plotagem para os procedimentos que eu descrevo:
Como outros observaram, a suavização é quase certamente mais apropriada para este caso (ou seja, obter um KDE). Espero que isso dê uma idéia do que descrevi no meu comentário sobre a generalização direta (com todos os problemas que isso pode acarretar) de regras de amostra 1-D para regras de amostra 2-D. Notavelmente, a maioria dos procedimentos assume algum grau de "normalidade" na amostra. Se você tiver uma amostra que claramente não é normalmente distribuída (por exemplo, é leptokurtótica), esse procedimento (mesmo em 1-D) falharia bastante.
fonte