Quais métodos posso usar para inferir uma distribuição se conhecer apenas três percentis?
Por exemplo, eu sei que em um determinado conjunto de dados, o quinto percentil é 8.135, o 50. ° é 11.259 e o 95. ° é 23.611. Quero poder passar de qualquer outro número para seu percentil.
Não são meus dados, e essas são todas as estatísticas que tenho. É claro que a distribuição não é normal. A única outra informação que tenho é que esses dados representam o financiamento per capita do governo para diferentes distritos escolares.
Sei o suficiente sobre estatísticas para saber que esse problema não tem uma solução definitiva, mas não o suficiente para saber como encontrar boas suposições.
Uma distribuição lognormal seria apropriada? Quais ferramentas posso usar para executar a regressão (ou preciso fazer isso sozinho)?
fonte
Respostas:
O uso de um método puramente estatístico para realizar este trabalho não fornecerá absolutamente nenhuma informação adicional sobre a distribuição dos gastos escolares: o resultado refletirá apenas uma escolha arbitrária de algoritmo.
Você precisa de mais dados .
É fácil obter isso: use dados de anos anteriores, de distritos comparáveis, qualquer que seja. Por exemplo, os gastos federais em 14866 distritos escolares em 2008 estão disponíveis no site do Censo . Isso mostra que, em todo o país, a receita federal total per capita (registrada) era distribuída aproximadamente normalmente normalmente, mas a divisão por estado mostra uma variação substancial ( por exemplo , os gastos com toras no Alasca têm uma inclinação negativa, enquanto os gastos com toras no Colorado têm uma inclinação positiva forte) . Use esses dados para caracterizar a forma provável de distribuição e, em seguida, ajuste seus quantis a essa forma.
Se você estiver próximo da forma distributiva correta, poderá reproduzir os quantis com precisão, ajustando um ou no máximo dois parâmetros. A melhor técnica para encontrar o ajuste dependerá da forma distributiva usada, mas - muito mais importante - dependerá do que você pretende usar os resultados para. Você precisa estimar um valor médio de gastos? Limites superior e inferior de gastos? Seja o que for, você deseja adotar alguma medida de adequação que lhe proporcione a melhor chance de tomar boas decisões com seus resultados. Por exemplo, se seu interesse estiver focado nos 10% superiores de todos os gastos, convém ajustar o percentil 95 com precisão e você pode se importar pouco em ajustar o percentil 5. Nenhuma técnica sofisticada de ajuste fará essas considerações para você.
É claro que ninguém pode legitimamente garantir que esse método orientado a decisões, com base em dados, tenha um desempenho melhor (ou pior) do que alguma receita estatística, mas - diferentemente de uma abordagem puramente estatística - esse método tem uma base fundamentada na realidade, com foco nas suas necessidades, dando-lhe credibilidade e defesa contra críticas.
fonte
Como o @whuber apontou, os métodos estatísticos não funcionam exatamente aqui. Você precisa inferir a distribuição de outras fontes. Quando você conhece a distribuição, tem um exercício de resolução de equações não lineares. Denuncie por a função quantil da distribuição de probabilidade escolhida com o vetor de parâmetros θ . O que você tem é o seguinte sistema não-linear de equações:f θ
Aqui eu escolhi a função quadrática, mas você pode escolher o que quiser. De acordo com os comentários do @whuber, você pode atribuir pesos, para que quantis mais importantes possam ser ajustados com mais precisão.
Para quatro e mais parâmetros, o sistema é subdeterminado, existindo um número infinito de soluções.
Aqui está um código R de exemplo que ilustra essa abordagem. Para fins de demonstração, eu gero os quantis da distribuição Singh- Maddala do pacote VGAM . Essa distribuição possui 3 parâmetros e é usada na modelagem de distribuição de renda.
Agora forme a função que avalia o sistema não linear de equações:
Verifique se os valores verdadeiros satisfazem a equação:
Para resolver o sistema de equações não lineares, uso a função
nleqslv
do pacote nlqeslv .Como vemos, obtemos a solução exata. Agora vamos tentar ajustar a distribuição log-normal a esses quantis. Para isso, usaremos a
optim
funçãoAgora plote o resultado
A partir disso, vemos imediatamente que a função quadrática não é tão boa.
Espero que isto ajude.
fonte
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Proponhoofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
porqueq
não é uma entradaofn
eX[3]
está faltando. SaudaçõesExperimente o pacote rriskDistributions e - se tiver certeza da família de distribuição lognormal - use o comando
o que deve resolver seu problema. Use
fit.perc
se não quiser restringir a um pdf conhecido.fonte
Para um lognormal, a proporção do percentil 95 para a mediana é a mesma que a proporção da mediana para o 5º percentil. Isso nem é quase verdade aqui, então o lognormal não seria um bom ajuste.
Você tem informações suficientes para ajustar uma distribuição com três parâmetros e claramente precisa de uma distribuição inclinada. Para simplicidade analítica, eu sugeriria a distribuição logística-logística deslocada como sua função quantílica (ou seja, a inversa de sua função de distribuição cumulativa) possa ser escrita em uma forma fechada razoavelmente simples, para que você possa obter expressões de forma fechada para seus três parâmetros em termos de seus três quantis com um pouco de álgebra (deixarei isso como um exercício!). Essa distribuição é usada na análise de frequência de inundação.
Isso não dará nenhuma indicação da incerteza nas estimativas dos outros quantis. Não sei se você precisa disso, mas, como estatístico, acho que devo fornecê-lo, por isso não estou realmente satisfeito com esta resposta. Eu certamente não usaria esse método, ou provavelmente qualquer outro método, para extrapolar (muito) fora do intervalo dos percentis 5 a 95.
fonte
Sobre as únicas coisas que você pode deduzir dos dados é que a distribuição é não simétrica. Você não pode nem dizer se esses quantis vieram de uma distribuição ajustada ou apenas do ecdf.
Se eles vieram de uma distribuição ajustada, você pode tentar todas as distribuições que puder imaginar e ver se há alguma correspondência. Caso contrário, não há informações suficientes. Você pode interpolar um polinômio de 2º grau ou um spline de 3º grau para a função quantil e usá-la, ou criar uma teoria sobre a família de distribuição e combinar quantis, mas qualquer dedução que você faça com esses métodos seria profundamente suspeita.
fonte
O uso de quantis para estimar parâmetros de distribuições a priori é discutido na literatura sobre medição de tempo de resposta humana como "estimativa de probabilidade máxima quantil" (QMPE, embora originalmente chamado erroneamente de "estimativa de verossimilhança de quantil máxima", QMLE), discutido longamente por Heathcote e colegas . Você pode ajustar várias distribuições a priori diferentes (ex-Gaussian, Lognormal deslocada, Wald e Weibull) e comparar as probabilidades de log de soma dos melhores ajustes resultantes para cada distribuição para encontrar o sabor da distribuição que parece produzir o melhor ajuste.
fonte
Você pode usar suas informações de percentil para simular os dados de alguma forma e usar o pacote "logspline" do R para estimar a distribuição não parametricamente. Abaixo está minha função que emprega um método como este.
fonte