Inspirado em minha outra pergunta , gostaria de perguntar como encontrar o modo de uma função de densidade de probabilidade (PDF) de uma função ?
Existe algum procedimento de "livro de receitas" para isso? Aparentemente, essa tarefa é muito mais difícil do que parece à primeira vista.
Respostas:
Dizer "o modo" implica que a distribuição tenha um e apenas um. Em geral, uma distribuição pode ter muitos modos, ou (sem dúvida) nenhum.
Se houver mais de um modo, você precisará especificar se deseja todos eles ou apenas o modo global (se houver exatamente um).
Assumindo que nos limitamos a distribuições unimodais *, para que possamos falar do modo "the", elas são encontradas da mesma maneira que em encontrar o máximo de funções em geral.
* observe que a página diz " como o termo" modo "tem vários significados, o mesmo acontece com o termo" unimodal " " e oferece várias definições de modo - que podem mudar o que, exatamente, conta como um modo, independentemente de haver 0 1 ou mais - e também altera a estratégia para identificá-los. Observe particularmente o quão geral a frase "mais geral" do que é unimodalidade no parágrafo inicial " unimodalidade significa que existe apenas um único valor mais alto, de alguma forma definido "
Uma definição oferecida nessa página é:
Portanto, dada uma definição específica do modo, você o encontra como encontraria essa definição específica de "valor mais alto" ao lidar com funções de maneira mais geral (assumindo que a distribuição seja unimodal sob essa definição).
Há uma variedade de estratégias em matemática para identificar essas coisas, dependendo das circunstâncias. Consulte a seção "Localizando máximos e mínimos funcionais" da página da Wikipedia em Máximos e mínimos, que fornece uma breve discussão.
Por exemplo, se as coisas forem boas o suficiente - digamos, estamos lidando com uma variável aleatória contínua, em que a função densidade tem primeira derivada contínua - você pode tentar encontrar onde a derivada da função densidade é zero e verificar qual é o tipo de ponto crítico (ponto máximo, mínimo e horizontal de inflexão). Se existe exatamente um desses pontos que é um máximo local, deve ser o modo de uma distribuição unimodal.
No entanto, em geral, as coisas são mais complicadas (por exemplo, o modo pode não ser um ponto crítico), e as estratégias mais amplas para encontrar o máximo de funções aparecem.
Às vezes, encontrar onde derivadas são zero algebricamente pode ser difícil ou pelo menos complicado, mas ainda pode ser possível identificar o máximo de outras maneiras. Por exemplo, pode ser que alguém possa invocar considerações de simetria ao identificar o modo de uma distribuição unimodal. Ou pode-se invocar alguma forma de algoritmo numérico em um computador para encontrar um modo numericamente.
Aqui estão alguns casos que ilustram coisas típicas que você precisa verificar - mesmo quando a função é unimodal e pelo menos contínua por partes.
Assim, por exemplo, devemos verificar pontos finais (diagrama central), pontos em que a derivada muda de sinal (mas pode não ser zero; primeiro diagrama) e pontos de descontinuidade (terceiro diagrama).
Em alguns casos, as coisas podem não ser tão legais quanto essas três; você precisa tentar entender as características da função específica com a qual está lidando.
Não toquei no caso multivariado, onde, mesmo quando as funções são bastante "agradáveis", apenas encontrar o máximo local pode ser substancialmente mais complexo (por exemplo, os métodos numéricos para fazer isso podem falhar no sentido prático, mesmo quando logicamente precisam ser bem-sucedidos). eventualmente).
fonte
Essa resposta se concentra inteiramente na estimativa de modo de uma amostra, com ênfase em um método específico. Se houver algum senso forte em que você já conheça a densidade, analítica ou numericamente, a resposta preferida é, resumidamente, procurar os máximos únicos máximos ou múltiplos diretamente, como na resposta de @Glen_b.
Os "modos de meia amostra" podem ser calculados usando a seleção recursiva da meia amostra com o menor comprimento. Embora tenha raízes mais longas, uma excelente apresentação dessa idéia foi feita por Bickel e Frühwirth (2006).
A idéia de estimar o modo como o ponto médio do intervalo mais curto que contém um número fixo de observações remonta pelo menos a Dalenius (1965). Veja também Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) em outros estimadores do modo.
O modo de meia amostra é aqui definido usando duas regras.
shorth
Alguns comentários gerais seguem as vantagens e desvantagens dos modos de meia amostra, do ponto de vista de analistas de dados práticos, tanto quanto estatísticos matemáticos ou teóricos. Qualquer que seja o projeto, será sempre prudente comparar os resultados com as medidas sumárias padrão (por exemplo, medianas ou médias, incluindo médias geométricas e harmônicas) e relacionar os resultados aos gráficos de distribuição. Além disso, se o seu interesse estiver na existência ou extensão da bimodalidade ou multimodalidade, será melhor examinar diretamente estimativas adequadamente suavizadas da função de densidade.
Estimativa de modo Ao resumir onde os dados são mais densos, o modo de meia amostra adiciona um estimador automatizado do modo à caixa de ferramentas. As estimativas mais tradicionais do modo baseadas na identificação de picos nos histogramas ou mesmo nos gráficos de densidade do kernel são sensíveis a decisões sobre a origem ou largura do escaninho ou tipo de kernel e meia largura do kernel e mais difíceis de automatizar em qualquer caso. Quando aplicado a distribuições unimodais e aproximadamente simétricas, o modo de meia amostra estará próximo da média e da mediana, mas mais resistente que a média para os valores discrepantes em qualquer das caudas. Quando aplicado a distribuições unimodais e assimétricas, o modo de meia amostra estará tipicamente muito mais próximo do modo identificado por outros métodos que não a média ou a mediana.
Simplicidade A idéia do modo de meia amostra é bastante simples e fácil de explicar para estudantes e pesquisadores que não se consideram especialistas em estatística.
Interpretação gráfica O modo de meia amostra pode ser facilmente relacionado a exibições padrão de distribuições, como gráficos de densidade de kernel, distribuição cumulativa e plotagem de quantis, histogramas e plotagens de caule e folha.
Ao mesmo tempo, observe que
Não é útil para todas as distribuições Quando aplicado a distribuições com formato aproximadamente J, o modo de meia amostra aproximará o mínimo dos dados. Quando aplicado a distribuições que são aproximadamente em forma de U, o modo de meia amostra estará dentro da metade da distribuição que tiver maior densidade média. Nenhum comportamento parece especialmente interessante ou útil, mas igualmente há pouca necessidade de resumos de modo único para distribuições em forma de J ou em U. Para as formas em U, a bimodalidade faz com que a idéia de um modo único seja discutida, se não for inválida.
Gravatas A metade mais curta pode não ser definida de forma única. Mesmo com os dados medidos, o arredondamento dos valores relatados pode frequentemente gerar vínculos. O que fazer com duas ou mais metades mais curtas tem sido pouco discutido na literatura. Observe que as metades amarradas podem se sobrepor ou ser desunidas.
hsmode
Robertson and Cryer (1974, p.1014) reported 35 measurements of uric acid (in mg/100 ml):1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation 5.00,5.02,5.04 . Compare with your favourite density estimation procedure.
hsmode
reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure areAndrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W. Tukey. 1972. Robust estimates of location: survey and advances. Princeton, NJ: Princeton University Press.
Bickel, D.R. 2002. Robust estimators of the mode and skewness of continuous data. Computational Statistics & Data Analysis 39: 153-163.
Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.
Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. The length of the shorth. Annals of Statistics 16: 619-628.
Hampel, F.R. 1975. Beyond location parameters: robust concepts and methods. Bulletin, International Statistical Institute 46: 375-382.
Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory and methods. Chichester: John Wiley.
Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating the mode. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, P.J. 1984. Least median of squares regression. Journal, American Statistical Association 79: 871-880.
Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier detection. New York: John Wiley.
This account is based on documentation for
Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.
See also David R. Bickel's website here for information on implementations in other software.
fonte
If you have samples from the distribution in a vector "x", I would do:
You should tune the density function so it is smooth enough on the top ;-).
If you have only the density of the distribution, I would use an optimiser to find the mode (REML, LBFGS, simplex, etc.)...
Or use a Monte-Carlo sampler to get some samples from the distribution (package rstan) and use the procedure above. (Anyway, Stan package as an "optimizing" function to get the mode of a distribution).
fonte