Existe algum truque técnico para determinar o terceiro quartil se ele pertence a um intervalo aberto que contém mais de um quarto da população (então não posso fechar o intervalo e usar a fórmula padrão)?
Editar
Caso eu entenda mal algo, fornecerei um contexto mais ou menos completo. Eu tenho dados organizados em uma tabela com duas colunas e, digamos, 6 linhas. Com cada coluna corresponde um intervalo (na primeira coluna) e uma quantidade de população que "pertence" a esse intervalo. O último intervalo está aberto e inclui mais de 25% da população. Todos os intervalos (com exceção do último) têm o mesmo intervalo.
Dados de amostra (transpostos para apresentação):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
A primeira coluna deve ser interpretada como uma faixa de nível de renda. O segundo deve ser interpretado como o número de funcionários cuja renda pertence ao intervalo.
A fórmula padrão em que estou pensando é .
Respostas:
Você precisa ajustar esses dados em bin com algum modelo de distribuição, pois essa é a única maneira de extrapolar para o quartil superior.
Uma modelo
Por definição, esse modelo é dado por uma função cadlag subindo de 0 a 1 . A probabilidade que ele atribui a qualquer intervalo ( a , b ] é F ( b ) - F ( a ) .Para fazer o ajuste, é necessário postar uma família de funções possíveis indexadas por um parâmetro (vetor) θ , { F θ } Supondo que a amostra resuma uma coleção de pessoas escolhidas aleatoriamente e independentemente de uma população descrita por algum F θ específico (mas desconhecido)F 0 1 (a,b] F(b)−F(a) θ {Fθ} Fθ , a probabilidade da amostra (ou probabilidade , ) é o produto das probabilidades individuais. No exemplo, seria igualL
porque das pessoas têm probabilidades associadas F θ ( 8 ) - F θ ( 6 ) , 65 têm probabilidades F θ ( 10 ) - F θ ( 8 ) e assim por diante.51 Fθ(8)−Fθ(6) 65 Fθ(10)−Fθ(8)
Ajustando o Modelo aos Dados
A estimativa de máxima verossimilhança de é um valor que maximiza L (ou, equivalentemente, o logaritmo de L ).θ L L
As distribuições de renda geralmente são modeladas por distribuições normais (veja, por exemplo, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Escrevendo , a família de distribuições lognormal éθ=(μ,σ)
Para esta família (e muitas outras), é fácil otimizar numericamente. Por exemplo, escreveríamos uma função para calcular log ( L ( θ ) ) e, em seguida, otimizá-la, porque o máximo de log ( L ) coincide com o máximo de L em si e (geralmente) log ( L ) é mais simples de calcular e numericamente mais estável para trabalhar:L log(L(θ)) log(L) L log(L)
R
A solução neste exemplo é , encontrada no valorθ=(μ,σ)=(2.620945,0.379682)
fit$par
.Verificando suposições do modelo
Precisamos pelo menos verificar se isso está de acordo com a normalidade de log assumida; portanto, escrevemos uma função para calcular :F
É aplicado aos dados para obter as populações de posições ajustadas ou "previstas":
Podemos desenhar histogramas dos dados e a previsão para compará-los visualmente, mostrados na primeira linha desses gráficos:
Para compará-los, podemos calcular uma estatística qui-quadrado. Isso geralmente é referido a uma distribuição qui-quadrado para avaliar a significância :
Usando o ajuste para estimar quantis
Esses procedimentos e esse código podem ser aplicados em geral. A teoria da probabilidade máxima pode ser explorada ainda mais para calcular um intervalo de confiança em torno do terceiro quartil, se isso for interessante.
fonte
Tempo demais para um comentário:
a resposta de whubers é tão boa quanto qualquer outra, mas ele assume a inclinação correta em seu modelo log-normal. Isso pode ser realista para a renda da população em geral, mas pode não ser para a renda de um único empregador em um determinado nível.
fonte