Se queremos ver visivelmente a distribuição de dados contínuos, qual dentre o histograma e o pdf deve ser usado?
Quais são as diferenças, não em termos de fórmula, entre histograma e pdf?
distributions
pdf
histogram
csgillespie
fonte
fonte
Respostas:
Para esclarecer o ponto Dirks:
Digamos que seus dados sejam uma amostra de uma distribuição normal. Você pode construir o seguinte gráfico:
A linha vermelha é a estimativa da densidade empírica, a linha azul é o pdf teórico da distribuição normal subjacente. Observe que o histograma é expresso em densidades e não em frequências aqui. Isso é feito para fins de plotagem, em geral as frequências são usadas nos histogramas.
Então, para responder à sua pergunta: use a distribuição empírica (isto é, o histograma) se desejar descrever sua amostra e o pdf se desejar descrever a distribuição subjacente hipotética.
O gráfico é gerado pelo seguinte código em R:
fonte
Um histograma é uma estimativa da idade pré-computador de uma densidade. Uma estimativa de densidade é uma alternativa.
Atualmente, usamos os dois, e há uma rica literatura sobre quais padrões se deve usar.
Um pdf, por outro lado, é uma expressão de forma fechada para uma determinada distribuição. Isso é diferente de descrever seu conjunto de dados com uma densidade ou histograma estimado .
fonte
density
*ab*
**ab**
$\sqrt{2}$
Não existe uma regra rígida e rápida aqui. Se você conhece a densidade da sua população, um PDF é melhor. Por outro lado, geralmente lidamos com amostras e um histograma pode transmitir algumas informações que uma densidade estimada encobre. Por exemplo, Andrew Gelman destaca este ponto:
fonte
Histograma de frequência relativa ( discreto )
Histograma de densidade ( discreto )
Função Densidade de Probabilidade PDF ( contínuo )
Essas referências foram úteis :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Distribuição_da_probabilidade contínua do site acima
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html
fonte