Onde a estimativa de densidade é útil?

13

Depois de passar por uma matemática um pouco concisa, acho que tenho uma leve intuição da estimativa da densidade do núcleo. Mas também estou ciente de que estimar a densidade multivariada para mais de três variáveis ​​pode não ser uma boa ideia, em termos das propriedades estatísticas de seus estimadores.

Então, em que tipos de situações eu deveria querer estimar, digamos, a densidade bivariada usando métodos não paramétricos? Vale a pena começar a se preocupar com a estimativa para mais de duas variáveis?

Se você puder apontar para alguns links úteis sobre a aplicação da estimativa da densidade multivariada, isso seria ótimo.

lovekesh
fonte

Respostas:

15

Um caso típico para a aplicação da estimativa de densidade é a detecção de novidade, também conhecida como detecção externa, onde a idéia é que você só (ou principalmente) possui dados de um tipo, mas está interessado em dados distintos qualitativos muito raros, que se desviam significativamente de casos comuns.

Exemplos são detecção de fraude, detecção de falhas nos sistemas e assim por diante. São situações em que é muito difícil e / ou caro reunir dados do tipo em que você está interessado. Esses casos raros, como casos com baixa probabilidade de ocorrência.

Na maioria das vezes, você não está interessado em estimar com precisão a distribuição exata, mas nas probabilidades relativas (qual a probabilidade de uma determinada amostra ser um outlier real versus não ser um).

Existem dezenas de tutoriais e análises sobre o tópico. Este um pode ser uma boa para começar.

EDIT: para algumas pessoas, parece estranho usar a estimativa de densidade para detecção de valores extremos. Vamos primeiro concordar com uma coisa: quando alguém ajusta um modelo de mistura aos seus dados, ele está realmente realizando uma estimativa de densidade. Um modelo de mistura representa uma distribuição de probabilidade.

Na verdade, o kNN e o GMM estão relacionados: são dois métodos para estimar essa densidade de probabilidade. Essa é a idéia subjacente para muitas abordagens na detecção de novidades. Por exemplo, este baseado em kNNs, este outro baseado em janelas Parzen (que enfatizam essa mesma idéia no início do artigo), e muitas outras .

Parece-me (mas é apenas a minha percepção pessoal) que a maioria, se não todos, trabalha nessa idéia. De que outra forma você expressaria a ideia de um evento anômalo / raro?

jpmuc
fonte
O conjunto de notas que você descreveu (seção 6, "abordagem baseada na densidade") descreve algumas abordagens muito esotéricas (longe da literatura desenvolvida sobre o fluxo e a quietude sobre o assunto) para a detecção de valores extremos. Certamente, aplicativos mais comuns devem existir.
user603
2
Desculpe, eu não entendo o seu comentário. Dois exemplos muito básicos seriam kNN e GMM. Esses dois métodos fornecem estimativas da densidade de probabilidade e podem ser usados ​​para esses casos.
jpmuc
Obrigado. o que é GMM? Não acho que o kNN seja uma abordagem de fluxo médio para detecção de valores extremos. Você pode se referir a um livro recente sobre estatísticas robustas, onde é usado nesse contexto? (Eu olhei para os papéis no conjunto de slides que apontavam para que pertencem a outlier detecção parecem ser tanto procedings conferências ou livros de idade)
user603
GMM = modelo de mistura gaussiana. Nos slides, eles se referem a pontuações baseadas em kNNs. Pessoalmente, usei SVMs para detecção de novidades. Lamentavelmente, não posso recomendar um livro concreto. Talvez essas anotações ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) sejam suficientes.
jpmuc
1
Concordo plenamente com @ user603. A estimativa de densidade é, à primeira vista, uma maneira muito estranha e indireta de tentar encontrar discrepâncias. Sua resposta seria aprimorada resumindo como isso é aplicado na prática - e por que você acha que funciona bem.
Nick Cox
4

(xEu)

fh(x)xEuexp(-(xEu-x)TΣ-1(xEu-x)),
Σ-1xEu
peuhp
fonte
4

Normalmente , o KDE é apresentado como uma alternativa aos histogramas. A principal vantagem do KDE sobre os histogramas, neste contexto, é aliviar os efeitos dos parâmetros escolhidos arbitrariamente na saída visual do procedimento. Em particular (e como ilustrado no link acima), o KDE não precisa que o usuário especifique os pontos inicial e final.

user603
fonte