Quais são os melhores métodos para ajustar o 'modo' de dados amostrados de uma distribuição contínua?
Como o modo é tecnicamente indefinido (certo?) Para uma distribuição contínua, estou realmente perguntando 'como você encontra o valor mais comum'?
Se você presumir que a distribuição pai é gaussiana, poderá bin os dados e encontrar, digamos, que o modo é o local da bin com maiores contagens. No entanto, como você determina o tamanho da bandeja? Existem implementações robustas disponíveis? (ou seja, robusto para valores extremos). Eu uso python
/ scipy
/ numpy
, mas provavelmente posso traduzir R
sem muita dificuldade.
distributions
fitting
mode
Keflavich
fonte
fonte
Respostas:
Em R, aplicando o método que não é baseado na modelagem paramétrica da distribuição subjacente e usa o estimador de densidade do kernel padrão para 10000 variáveis distribuídas gama:
retorna 0,199, que é o valor de x estimado para ter a densidade mais alta (as estimativas de densidade são armazenadas como "z $ y").
fonte
Suponha que você faça um histograma, com o tamanho do compartimento b, e o compartimento maior tenha k entradas, a partir da amostra total do tamanho n. Em seguida, o PDF médio nessa bandeja pode ser estimado em b * k / n.
O problema é que outro compartimento, que possui menos membros totais, pode ter uma alta densidade de pontos. Você só pode saber sobre isso se tiver uma suposição razoável sobre a taxa de alteração do PDF. Se você o fizer, poderá estimar a probabilidade de que o segundo maior compartimento realmente contenha o modo.
O problema subjacente é este. Uma amostra fornece um bom conhecimento do CDF, pelo teorema de Kolmogorov-Smirnov, e, portanto, uma boa estimativa da mediana e de outros quantis. Mas conhecer uma aproximação a uma função em L1 não fornece conhecimento aproximado de sua derivada. Portanto, nenhuma amostra fornece um bom conhecimento do PDF, sem suposições adicionais.
fonte
Aqui estão alguns esboços gerais de solução que também funcionam para distribuições de alta dimensão:
Treine um f-GAN com divergência reversa de KL, sem fornecer nenhuma entrada aleatória ao gerador (ou seja, force-o a ser determinístico).
Treine um f-GAN com divergência reversa de KL, mova a distribuição de entrada para o gerador em direção a uma função delta Dirac à medida que o treinamento avança e adicione uma penalidade de gradiente à função de perda do gerador.
Treine um modelo generativo (diferenciável) que possa avaliar de maneira tratável uma aproximação do pdf a qualquer momento (acredito que, por exemplo, um VAE, um modelo baseado em fluxo ou um modelo autoregressivo o fariam). Em seguida, use algum tipo de otimização (algum sabor de ascensão gradiente pode ser usado se a inferência do modelo for diferenciável) para encontrar o máximo dessa aproximação.
fonte