Ao pensar em um histograma como uma estimativa da função de densidade, é razoável pensar no tamanho da caixa como um parâmetro que restringe a estrutura local dessa função?
Além disso, existe uma maneira melhor de articular esse raciocínio?
Ao pensar em um histograma como uma estimativa da função de densidade, é razoável pensar no tamanho da caixa como um parâmetro que restringe a estrutura local dessa função?
Além disso, existe uma maneira melhor de articular esse raciocínio?
Respostas:
Sim, é uma maneira razoável de pensar sobre isso (supondo que o histograma esteja normalizado para obter um pdf adequado). A largura da bandeja restringe a suavidade da estimativa de densidade (falando livremente, pois os histogramas são funções descontínuas). Ele controla até que ponto uma estrutura mais fina pode ser modelada e também até que ponto as flutuações aleatórias nos dados afetam a estimativa. Ela desempenha um papel semelhante à largura do núcleo na estimativa da densidade do núcleo e aos hiperparâmetros que controlam o tamanho das folhas nas árvores de decisão.
Para ser um pouco mais específico, a largura do escaninho é um hiperparâmetro que controla a troca da variação de polarização. Reduzir a largura da lixeira diminui o viés porque permite uma representação mais refinada - os histogramas com bandejas mais estreitas formam uma classe mais rica de funções que podem aproximar melhor a distribuição verdadeira / subjacente. Porém, aumenta a variação porque menos pontos de dados estão disponíveis para estimar a altura de cada compartimento - os histogramas com compartimentos mais estreitos são mais sensíveis a flutuações aleatórias nos dados e variam mais com os conjuntos de dados extraídos da mesma distribuição subjacente. Uma boa largura do compartimento equilibra esses efeitos opostos para fornecer uma estimativa de densidade que melhor corresponda à distribuição subjacente.
Para mais detalhes, consulte:
Scott (1979) . Em histogramas ótimos e baseados em dados.
Shalizi (2009) . Estimando distribuições e densidades [notas do curso]
fonte
Os estimadores de densidade de kernel são muitas vezes racionalizados como uma versão "contínua" de um histograma. Muitos livros sobre estimativa não paramétrica de kernel também discutem histogramas. Veja, por exemplo, o capítulo 2 em Racine, Jeffrey S. " Econometria não paramétrica: uma cartilha ". Foundations and Trends® in Econometrics 3.1 (2008): 1-88.
fonte
É razoável, porque o que você faz colocando amostras em lixeiras está aproximando os dados. Na minha experiência, dependendo do seu objetivo e dos dados disponíveis, esses compartimentos podem variar drasticamente e ter um grande impacto em como os dados são tratados ainda mais. Em alguns casos, você pode não precisar de muitos compartimentos ou talvez não tenha dados, para poder ver a curva geral. Por outro lado, se a aproximação for muito forte, você poderá perder alguns detalhes, como min e máx. Locais ou a estrutura. Por exemplo, você pode usar a seguinte função:
E compare o histórico para 100 e 8 posições
Há uma clara diferença entre a complexidade da estrutura. Se estamos falando sobre a função densidade, é claro que você deve escolher a segunda opção para uma curva mais suave, sem valores extremos, como na primeira imagem.
Normalmente, prefiro usar a regra Freedman – Diaconis como regra geral para escolher a opção padrão. número de posições e, em seguida, ajuste-a considerando a tarefa.
fonte