Versão curta: Qual é o método mais eficiente computacionalmente para estimar o modo de um conjunto de dados multidimensionais, amostrado de uma distribuição contínua?
Versão longa: tenho um conjunto de dados em que preciso estimar o modo. O modo não coincide com a média ou mediana. Uma amostra é mostrada abaixo, este é um exemplo 2D, mas uma solução ND seria melhor:
Atualmente, meu método é
- Calcular a estimativa da densidade do kernel em uma grade igual à resolução desejada do modo
- Procure o maior ponto calculado
Obviamente, isso calcula o KDE em muitos pontos não plausíveis, o que é especialmente ruim se houver muitos pontos de dados de grandes dimensões ou espero uma boa resolução no modo.
Uma alternativa seria usar um recozimento simulado, algoritmo genético etc. para encontrar o pico global no KDE.
A questão é se existe um método mais inteligente de realizar esse cálculo?
Respostas:
Uma exposição muito detalhada sobre o algoritmo também é fornecida nesta entrada do blog .
fonte
Se o seu interesse principal for problemas bidimensionais, eu diria que a estimativa da densidade do kernel é uma boa opção porque possui boas propriedades assintóticas (observe que não estou dizendo que é a melhor). Veja por exemplo
Para dimensões mais altas (4+), esse método é realmente lento devido à conhecida dificuldade em estimar a matriz de largura de banda ideal, consulte .
Agora, o problema com o comando
ks
no pacoteKDE
é, como você mencionou, que ele avalia a densidade em uma grade específica, o que pode ser muito limitante. Este problema pode ser resolvido se você usar o pacoteKDE
para estimar a matriz de largura de banda, usando, por exemploHscv
, implementar o estimador de densidade de Kernel e, em seguida, otimizar essa função usando o comandooptim
. Isso é mostrado abaixo usando dados simulados e um kernel Gaussiano noR
.Estimadores com restrição de forma tendem a ser mais rápidos, por exemplo
Mas eles estão muito altos para esse fim.
Outros métodos que você pode considerar usar são: ajustar uma mistura finita multivariada de normais (ou outras distribuições flexíveis) ou
Eu espero que isso ajude.
fonte
Recentemente, publicamos um artigo sugerindo um estimador de modo rápido e consistente.
Eu também sugeriria os novos estimadores de modo de variação mínima do meu artigo recente
fonte