Eu apenas pensei em uma maneira pura (não necessariamente boa) de criar estimativas de densidade unidimensional e minha pergunta é:
Esse método de estimativa de densidade tem um nome? Caso contrário, é um caso especial de algum outro método na literatura?
Aqui está o método: Nós temos um vector que assumimos ser extraído de alguma distribuição desconhecida que gostaríamos de estimar. Uma maneira de fazer isso é pegar todos os pares possíveis de valores em e, para cada par ajustar uma distribuição Normal usando a máxima probabilidade. A estimativa de densidade resultante é então a distribuição da mistura que consiste em todos os normais resultantes, onde cada normal recebe peso igual.
A figura abaixo ilustra o uso desse método no vetor . Aqui, os círculos são os pontos de dados, os normais coloridos são as distribuições de probabilidade máxima estimadas usando cada par possível e a linha preta grossa mostra a estimativa de densidade resultante (ou seja, a distribuição da mistura).
A propósito, é realmente fácil implementar um método em R que extrai uma amostra da distribuição resultante da mistura:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
fonte
x <- c(rnorm(30), rnorm(30, 10))
Respostas:
Essa é uma ideia intrigante, porque o estimador do desvio padrão parece ser menos sensível aos valores extremos do que as abordagens usuais de raiz quadrada média. No entanto, duvido que este estimador tenha sido publicado. Existem três razões para isso: é computacionalmente ineficiente, é tendencioso e, mesmo quando o viés é corrigido, é estatisticamente ineficiente (mas apenas um pouco). Isso pode ser visto com uma pequena análise preliminar, então vamos fazer isso primeiro e depois tirar as conclusões.
Análise
Os estimadores de ML da média e desvio padrão σ com base nos dados ( x i , x j ) sãoμ σ (xi,xj)
e
Portanto, o método descrito na pergunta é
qual é o estimador usual da média e
Conclusões
R
. (Em outras plataformas, os requisitos de RAM seriam muito menores, talvez com um pequeno custo no tempo de computação.)É estatisticamente ineficiente. Para oferecer a melhor exibição, vamos considerar a versão imparcial e compará-la com a versão imparcial do estimador de mínimos quadrados ou de probabilidade máxima
R
Afterward
The form ofσ^ is reminiscent of the robust and resistant Theil-Sen estimator--but instead of using the medians of the absolute differences, it uses their means. If the objective is to have an estimator that is resistant to outlying values or one that is robust to departures from the Normality assumption, then using the median would be more advisable.
Code
fonte