Como usar estatísticas de CDF e PDF para análise

12

Isso pode ser uma pergunta muito geral, mas espero encontrar ajuda aqui. Estou iniciando um trabalho de AR na minha universidade e meu tópico estará relacionado à Análise de tráfego da Internet. Sou bastante novo no mundo da análise, mas acho que no mundo da pesquisa é isso que tenho que fazer muito.

Eu já li alguns artigos e em muitos deles acho que eles usam Densidade de Probabilidade (PDF), CDF, CCDF etc. para explicar os resultados obtidos. Por exemplo, PDF com duração da sessão do usuário, CDF de bytes transferidos todos os dias etc. Tomei aulas de probabilidade e estatística para entender o que são, mas ainda estou confuso com os casos em que essa representação seria escolhida.

Portanto, se houver alguém por aí que faça esses gráficos e análises (em qualquer outro tópico em geral ou este), você poderia me dizer simplesmente em que situação eu usaria uma ou outra dessas representações

sfactor
fonte

Respostas:

17

Em parte, é uma questão de gosto e convenção, mas a teoria, a atenção aos seus objetivos e um pouquinho de neurociência cognitiva [veja as referências] podem fornecer algumas orientações.

Como um pdf e um cdf transmitem a mesma informação, a distinção entre eles surge da maneira como o fazem: um pdf representa probabilidade com áreas, enquanto um cdf representa probabilidade com distâncias (verticais) . Estudos mostram que as pessoas comparam distâncias mais rapidamente e com mais precisão do que áreas e que sistematicamente calculam mal as áreas. Portanto, se seu objetivo é fornecer uma ferramenta gráfica para a leitura de probabilidades, você deve usar um cdf.

Pdfs e cdfs também representam densidade de probabilidade : o primeiro faz isso por meio de altura, enquanto o último representa densidade por inclinação . Agora, as tabelas estão viradas, porque as pessoas são pobres em estimadores de inclinação (que é a tangente de um ângulo; tendemos a ver o próprio ângulo). As densidades são boas para transmitir informações sobre modos, peso das caudas e lacunas. Favor usar o pdf em tais situações e em qualquer outro lugar onde os detalhes locais da distribuição de probabilidade precisem ser enfatizados.

Às vezes, um pdf ou cdf fornece informações teóricas úteis. Seu valor (ou melhor, o inverso) está envolvido em fórmulas para erros padrão para quantis, extremos e estatísticas de classificação. Exiba um pdf em vez de um cdf nessas situações. Ao estudar correlações multivariadas em um cenário não paramétrico, como com cópulas , o cdf acaba sendo mais útil (talvez porque seja a função que transforma uma lei de probabilidade contínua em uma uniforme).

Um pdf ou cdf pode estar intimamente associado a um teste estatístico específico. O teste de Kolmogorov-Smirnov (e a estatística KS) tem uma representação gráfica simples em termos de um buffer vertical ao redor do cdf; não possui uma representação gráfica simples em termos de pdf (que eu saiba).

O ccdf (cdf complementar) é usado em aplicações especiais que se concentram na sobrevivência e eventos raros. Seu uso tende a ser estabelecido por convenção.

Referências

WS Cleveland (1994). Os elementos da representação gráfica de dados. Summit, NJ, EUA: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Cartografia: Desenho de Mapa Temático 5ª Ed. Boston, MA, EUA: WCB McGraw-Hill.

AM MacEachren (2004). Como funcionam os mapas. Nova York, NY, EUA: The Guilford Press. ISBN 1-57230-040-X

whuber
fonte
(+1), especialmente para os insights sobre a interpretabilidade de distâncias versus áreas e inclinação versus altura.
27610 steffen
8

Concordo com a resposta do whuber, mas tenho um ponto menor adicional:

O CDF possui um estimador não paramétrico simples que não precisa de escolhas a serem feitas: a função de distribuição empírica . Não é bastante tão simples para estimar um PDF. Se você usar um histograma, precisará escolher a largura do compartimento e o ponto inicial para o primeiro compartimento. Se você usar a estimativa de densidade do kernel, precisará escolher a forma e a largura de banda do kernel. Um leitor suspeito ou cínico pode se perguntar se realmente escolheu esses itens a priori ou se tentou alguns valores diferentes e escolheu aqueles que deram o resultado que mais gostou.

Este é apenas um ponto menor, no entanto. As que o whuber fez são mais importantes, então eu provavelmente usaria isso apenas para escolher quando ainda estava indeciso depois de considerar isso.

uma parada
fonte
Ainda é um ponto interessante. Obrigado por mencionar.
whuber
2

Acho que depende de quais estatísticas ou descobertas você vai descobrir, pesquisar, estudar ou relatar. Suponho que você provavelmente esteja usando esses gráficos para representar resultados para o tópico da sua universidade, certo?

Por exemplo, se você quiser apresentar sua descoberta sobre, por exemplo, 'Por quanto tempo os usuários permanecem em um determinado site', pode ser bom mostrá-lo no CDF, pois mostra o tempo acumulado que ele passou nesse site, nas páginas etc. .

Por outro lado, se você quiser simplesmente mostrar a probabilidade de os usuários clicarem em um link de anúncio (por exemplo, link do Google Adwords), poderá apresentá-lo em formato PDF, pois provavelmente será uma curva normal de distribuição e poderá mostrar a probabilidade de que isso ocorra.

Espero que isso ajude, Jeff


fonte