Como encontrar o modo de uma função de densidade de probabilidade?

14

Inspirado em minha outra pergunta , gostaria de perguntar como encontrar o modo de uma função de densidade de probabilidade (PDF) de uma função f(x) ?

Existe algum procedimento de "livro de receitas" para isso? Aparentemente, essa tarefa é muito mais difícil do que parece à primeira vista.

mmh
fonte
3
Caso você se pergunte sobre as respostas muito diferentes recebidas, observe que a resposta de Nick * se refere à estimativa de uma amostra , e não à situação em que você tem um pdf conhecido; Li sua pergunta perguntando sobre o caso conhecido em pdf, mas é um post muito útil se você quiser ver como fazer as coisas a partir de amostras. ...(* Pierre's também é sobre estimativa a partir de uma amostra)
Glen_b -Reinstate Monica

Respostas:

13

Dizer "o modo" implica que a distribuição tenha um e apenas um. Em geral, uma distribuição pode ter muitos modos, ou (sem dúvida) nenhum.

Se houver mais de um modo, você precisará especificar se deseja todos eles ou apenas o modo global (se houver exatamente um).

Assumindo que nos limitamos a distribuições unimodais *, para que possamos falar do modo "the", elas são encontradas da mesma maneira que em encontrar o máximo de funções em geral.

* observe que a página diz " como o termo" modo "tem vários significados, o mesmo acontece com o termo" unimodal " " e oferece várias definições de modo - que podem mudar o que, exatamente, conta como um modo, independentemente de haver 0 1 ou mais - e também altera a estratégia para identificá-los. Observe particularmente o quão geral a frase "mais geral" do que é unimodalidade no parágrafo inicial " unimodalidade significa que existe apenas um único valor mais alto, de alguma forma definido "

Uma definição oferecida nessa página é:

Um modo de uma distribuição de probabilidade contínua é um valor no qual a função de densidade de probabilidade (pdf) atinge seu valor máximo

Portanto, dada uma definição específica do modo, você o encontra como encontraria essa definição específica de "valor mais alto" ao lidar com funções de maneira mais geral (assumindo que a distribuição seja unimodal sob essa definição).

Há uma variedade de estratégias em matemática para identificar essas coisas, dependendo das circunstâncias. Consulte a seção "Localizando máximos e mínimos funcionais" da página da Wikipedia em Máximos e mínimos, que fornece uma breve discussão.

Por exemplo, se as coisas forem boas o suficiente - digamos, estamos lidando com uma variável aleatória contínua, em que a função densidade tem primeira derivada contínua - você pode tentar encontrar onde a derivada da função densidade é zero e verificar qual é o tipo de ponto crítico (ponto máximo, mínimo e horizontal de inflexão). Se existe exatamente um desses pontos que é um máximo local, deve ser o modo de uma distribuição unimodal.

No entanto, em geral, as coisas são mais complicadas (por exemplo, o modo pode não ser um ponto crítico), e as estratégias mais amplas para encontrar o máximo de funções aparecem.

Às vezes, encontrar onde derivadas são zero algebricamente pode ser difícil ou pelo menos complicado, mas ainda pode ser possível identificar o máximo de outras maneiras. Por exemplo, pode ser que alguém possa invocar considerações de simetria ao identificar o modo de uma distribuição unimodal. Ou pode-se invocar alguma forma de algoritmo numérico em um computador para encontrar um modo numericamente.

Aqui estão alguns casos que ilustram coisas típicas que você precisa verificar - mesmo quando a função é unimodal e pelo menos contínua por partes.

insira a descrição da imagem aqui

Assim, por exemplo, devemos verificar pontos finais (diagrama central), pontos em que a derivada muda de sinal (mas pode não ser zero; primeiro diagrama) e pontos de descontinuidade (terceiro diagrama).

Em alguns casos, as coisas podem não ser tão legais quanto essas três; você precisa tentar entender as características da função específica com a qual está lidando.


Não toquei no caso multivariado, onde, mesmo quando as funções são bastante "agradáveis", apenas encontrar o máximo local pode ser substancialmente mais complexo (por exemplo, os métodos numéricos para fazer isso podem falhar no sentido prático, mesmo quando logicamente precisam ser bem-sucedidos). eventualmente).

Glen_b -Reinstate Monica
fonte
1
+1 Como observação secundária, o modo global também pode não ser único; por exemplo, uma densidade de mistura com pesos iguais de uma variável aleatória e N ( - 1 , 1 ) . N(1,1)N(1,1)
Dilip Sarwate
@Dilip Vou adicionar um pequeno texto sobre isso.
Glen_b -Reinstala Monica
1
@DilipSarwate Também os modos da distribuição conjunta podem diferir dos modos das distribuições marginais.
Marcelo Ventura
17

Essa resposta se concentra inteiramente na estimativa de modo de uma amostra, com ênfase em um método específico. Se houver algum senso forte em que você já conheça a densidade, analítica ou numericamente, a resposta preferida é, resumidamente, procurar os máximos únicos máximos ou múltiplos diretamente, como na resposta de @Glen_b.

Os "modos de meia amostra" podem ser calculados usando a seleção recursiva da meia amostra com o menor comprimento. Embora tenha raízes mais longas, uma excelente apresentação dessa idéia foi feita por Bickel e Frühwirth (2006).

A idéia de estimar o modo como o ponto médio do intervalo mais curto que contém um número fixo de observações remonta pelo menos a Dalenius (1965). Veja também Robertson e Cryer (1974), Bickel (2002) e Bickel e Frühwirth (2006) em outros estimadores do modo.

nxx(1)x(2)x(n-1)x(n)

O modo de meia amostra é aqui definido usando duas regras.

n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)x(2)x(2)x(3)(x(2)+x(3))/2x(2)

n43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1h1+1h2=h1/2

x(k),,x(k+h)h=n/2(xk+x(k+h))/2xshorth

Alguns comentários gerais seguem as vantagens e desvantagens dos modos de meia amostra, do ponto de vista de analistas de dados práticos, tanto quanto estatísticos matemáticos ou teóricos. Qualquer que seja o projeto, será sempre prudente comparar os resultados com as medidas sumárias padrão (por exemplo, medianas ou médias, incluindo médias geométricas e harmônicas) e relacionar os resultados aos gráficos de distribuição. Além disso, se o seu interesse estiver na existência ou extensão da bimodalidade ou multimodalidade, será melhor examinar diretamente estimativas adequadamente suavizadas da função de densidade.

Estimativa de modo Ao resumir onde os dados são mais densos, o modo de meia amostra adiciona um estimador automatizado do modo à caixa de ferramentas. As estimativas mais tradicionais do modo baseadas na identificação de picos nos histogramas ou mesmo nos gráficos de densidade do kernel são sensíveis a decisões sobre a origem ou largura do escaninho ou tipo de kernel e meia largura do kernel e mais difíceis de automatizar em qualquer caso. Quando aplicado a distribuições unimodais e aproximadamente simétricas, o modo de meia amostra estará próximo da média e da mediana, mas mais resistente que a média para os valores discrepantes em qualquer das caudas. Quando aplicado a distribuições unimodais e assimétricas, o modo de meia amostra estará tipicamente muito mais próximo do modo identificado por outros métodos que não a média ou a mediana.

Simplicidade A idéia do modo de meia amostra é bastante simples e fácil de explicar para estudantes e pesquisadores que não se consideram especialistas em estatística.

Interpretação gráfica O modo de meia amostra pode ser facilmente relacionado a exibições padrão de distribuições, como gráficos de densidade de kernel, distribuição cumulativa e plotagem de quantis, histogramas e plotagens de caule e folha.

Ao mesmo tempo, observe que

Não é útil para todas as distribuições Quando aplicado a distribuições com formato aproximadamente J, o modo de meia amostra aproximará o mínimo dos dados. Quando aplicado a distribuições que são aproximadamente em forma de U, o modo de meia amostra estará dentro da metade da distribuição que tiver maior densidade média. Nenhum comportamento parece especialmente interessante ou útil, mas igualmente há pouca necessidade de resumos de modo único para distribuições em forma de J ou em U. Para as formas em U, a bimodalidade faz com que a idéia de um modo único seja discutida, se não for inválida.

Gravatas A metade mais curta pode não ser definida de forma única. Mesmo com os dados medidos, o arredondamento dos valores relatados pode frequentemente gerar vínculos. O que fazer com duas ou mais metades mais curtas tem sido pouco discutido na literatura. Observe que as metades amarradas podem se sobrepor ou ser desunidas.

hsmodettt/2

9,4,1,0,1,4,90.501+n/2nn, o que é difícil de obter devido a outros desideratos, especialmente que o comprimento da janela nunca deve diminuir com o tamanho da amostra. Preferimos acreditar que este é um problema menor com conjuntos de dados de tamanho razoável.

1+n/2n; it is preferable that the rule be simple; and there is usually some slight arbitrariness in choosing a rule of this kind. It is also important that any rule behave reasonably for small n: even if a program is not deliberately invoked for very small sample sizes the procedure used should make sense for all possible sizes. Note that, given n=1, the half-sample mode is just the single sample value, and, given n=2, it is the average of the two sample values. A further detail about this rule is that it always defines a slight majority, thus enforcing democratic decisions about the data. However, there seems no strong reason not to use n/2 as an even simpler rule, except that if it makes much difference, then it is likely that your sample size or variable is unsuitable for the purpose.

Robertson and Cryer (1974, p.1014) reported 35 measurements of uric acid (in mg/100 ml): 1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation hsmode reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure are 5.00,5.02,5.04. Compare with your favourite density estimation procedure.

Andrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W. Tukey. 1972. Robust estimates of location: survey and advances. Princeton, NJ: Princeton University Press.

Bickel, D.R. 2002. Robust estimators of the mode and skewness of continuous data. Computational Statistics & Data Analysis 39: 153-163.

Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.

Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. The length of the shorth. Annals of Statistics 16: 619-628.

Hampel, F.R. 1975. Beyond location parameters: robust concepts and methods. Bulletin, International Statistical Institute 46: 375-382.

Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory and methods. Chichester: John Wiley.

Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating the mode. Journal, American Statistical Association 69: 1012-1016.

Rousseeuw, P.J. 1984. Least median of squares regression. Journal, American Statistical Association 79: 871-880.

Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier detection. New York: John Wiley.

This account is based on documentation for

Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.

See also David R. Bickel's website here for information on implementations in other software.

Nick Cox
fonte
5

If you have samples from the distribution in a vector "x", I would do:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

You should tune the density function so it is smooth enough on the top ;-).

If you have only the density of the distribution, I would use an optimiser to find the mode (REML, LBFGS, simplex, etc.)...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Or use a Monte-Carlo sampler to get some samples from the distribution (package rstan) and use the procedure above. (Anyway, Stan package as an "optimizing" function to get the mode of a distribution).

Pierre Lebrun
fonte
It seems that such estimates are never used any more. You have to specify the kernel width to use kernel density estimators. On the other hand, HSM and HRM need no tuning at all and work in linear time.
Viktor