Eu sei que isso pode ser um pouco complicado, estatisticamente, mas esse é o meu problema.
Eu tenho muitos dados de intervalo, ou seja, o tamanho mínimo, máximo e amostral de uma variável. Para alguns desses dados, também tenho uma média, mas não muitos. Quero comparar esses intervalos entre si para quantificar a variabilidade de cada intervalo e também para comparar as médias. Tenho um bom motivo para supor que a distribuição é simétrica em torno da média e que os dados terão uma distribuição gaussiana. Por esse motivo, acho que posso justificar o uso do ponto médio da distribuição como proxy da média, quando ela estiver ausente.
O que eu quero fazer é reconstruir uma distribuição para cada intervalo e usá-la para fornecer um desvio ou erro padrão para essa distribuição. As únicas informações que tenho são os máximos e mínimos observados em uma amostra e o ponto médio como proxy da média.
Dessa forma, espero poder calcular as médias ponderadas de cada grupo e também calcular o coeficiente de variação de cada grupo, com base nos dados de faixa que tenho e em minhas suposições (de distribuição simétrica e normal).
Eu pretendo usar o R para fazer isso, então qualquer ajuda de código também seria apreciada.
fonte
Respostas:
A função de distribuição cumulativa conjunta para o mínimo de e máximo de x ( n ) para uma amostra de n de uma distribuição gaussiana com μ médio e desvio padrão σ éx(1) x(n) n μ σ
onde é o CDF gaussiano padrão. A diferenciação em relação a e fornece a função de densidade de probabilidade conjuntax ( 1 ) x ( n )Φ(⋅) x(1) x(n)
onde é o PDF gaussiano padrão. Tomar o log e soltar os termos que não contêm parâmetros fornece a função de probabilidade de logϕ ( ⋅ )
Isso não parece muito tratável, mas é fácil ver que ele é maximizado, seja qual for o valor de , definindo , ou seja, o ponto médio - o primeiro termo é maximizado quando o argumento de um CDF é negativo do argumento do outro; os segundo e terceiro termos representam a probabilidade conjunta de duas variáveis normais independentes.μ = μ = x ( n ) + x ( 1 )σ μ=μ^=x(n)+x(1)2
Substituindo na probabilidade do log e escrevendo fornece r=x(n)-X(1)ℓ(σ;x(1),x(n), μ )=(n-2)log[1-2Φ( - rμ^ r=x(n)−x(1)
Esta expressão deve ser maximizada numericamente (por exemplo, comσ^ σ^=k(n)⋅r k n
optimize
ostat
pacote de R ) para encontrar . (Acontece que , em que é uma constante dependendo apenas de talvez alguém mais matematicamente hábil do que eu poderia mostrar o porquê.) σ =k(n)⋅RknAs estimativas não são úteis sem uma medida de precisão. As informações de Fisher observadas podem ser avaliadas numericamente (por exemplo, com
hessian
onumDeriv
pacote R ) e usadas para calcular erros padrão aproximados:I(σ)=-∂2ℓ(σ; μ )
Seria interessante comparar a probabilidade e as estimativas do método dos momentos para em termos de viés (o MLE é consistente?), Variância e erro do quadrado médio. Há também a questão da estimativa para os grupos em que a média da amostra é conhecida além do mínimo e do máximo.σ
fonte
Você precisa relacionar o intervalo ao desvio / variância padrão. seja a média, o desvio padrão e seja o intervalo. Então, para a distribuição normal, temos que % da massa de probabilidade está dentro de 3 desvios padrão da média. Como regra prática, isso significa que, com uma probabilidade muito alta,μ σ R = x( N )- x( 1 ) 99,7
Subtraindo o segundo do primeiro, obtemos
Ter um valor para a média e para o desvio padrão caracteriza completamente a distribuição normal.
fonte
É simples obter a função de distribuição do máximo da distribuição normal (consulte "P.max.norm" no código). A partir dele (com algum cálculo), você pode obter a função quantil (consulte "Q.max.norm").
Usando "Q.max.norm" e "Q.min.norm", é possível obter a mediana do intervalo relacionado a N. Usando a ideia apresentada por Alecos Papadopoulos (na resposta anterior), é possível calcular sd.
Tente o seguinte:
fonte