Posso obter os parâmetros de uma distribuição lognormal a partir da média e mediana da amostra?

8

Eu tenho os valores médios e medianos para uma amostra extraída de uma distribuição lognormal. Observe que essa não é a média e a mediana dos logs da variável, embora eu possa, é claro, calcular os logs da média e da mediana. Existe uma solução de formulário fechado para μ e σ a partir dessas informações? Se houver apenas uma solução numérica, você poderia me dizer como encontrá-la, idealmente com R?

Observo que essa pergunta foi respondida por derivar μ e σ da média da amostra e da variação da amostra, aqui: Como faço para estimar os parâmetros de uma distribuição log-normal da média da amostra e da variação da amostra No entanto, eu não tenho o variância da amostra, apenas a média e mediana.

Se não houver uma solução numérica de forma fechada ou direta, gostaria de saber se o uso dos logs da média e mediana da amostra, ou alguma transformação deles, fornecerá uma resposta razoável para uma amostra grande (na casa das centenas de milhões )

andrewH
fonte

Respostas:

10

Depende do que você quer dizer com "get". Em geral, você não pode obter quantidades populacionais a partir de informações de amostra. No entanto, muitas vezes você pode obter estimativas, embora nesse caso as estimativas possam não ser muito boas.

m~=exp(μ)m=exp(μ+12σ2)μ=registro(m~)σ2=2registro(mm~)=2(registro(m)-registro(m~))

Da mesma forma, você pode tentar usar a média da amostra e a mediana da amostra em algum tipo de estimador das quantidades populacionais.

Se as únicas coisas que você tem são a média e a mediana da amostra de um lognormal ( e respectivamente), então você poderia pelo menos usar a estratégia óbvia de substituir quantidades populacionais por amostras *, combinando o método de momentos e método dos quantis ... e .x¯x~μ^=registro(x~)σ^2=2registro(x¯x~)=2(registro(x¯)-registro(x~))

Eu acredito que esses estimadores serão consistentes. No entanto, em amostras pequenas, elas certamente são tendenciosas e podem não ser muito eficientes, mas você pode não ter muitas opções sem uma análise considerável.

É claro que, na realidade, você realmente não sabe que seus dados são extraídos de uma distribuição normal do log - isso é um palpite. No entanto, na prática, pode ser uma suposição bastante útil.

O ideal seria calcular a distribuição conjunta da média e mediana da amostra a partir de um lognormal e, em seguida, tentar maximizar a probabilidade sobre os parâmetros nessa distribuição bivariada; isso deve funcionar da melhor maneira possível, mas é mais um problema de pesquisa decente (vale a pena um trabalho, se não tiver sido feito antes) do que apenas alguns parágrafos de resposta.

Pode-se realizar algumas investigações de simulação sobre as propriedades da distribuição conjunta da média e mediana da amostra. Por exemplo, considere que a distribuição da razão média / mediana deve estar livre de escala - uma função apenas de . Mesmo que não possamos computá-lo algebricamente, podemos ver como a proporção (por exemplo) se comporta à medida que muda. Pode-se então escolher o que maximiza aproximadamente a chance de obter a proporção observada ( pode ser estimada de várias maneiras, mas a óbvia - o log da mediana, como mencionado anteriormente - não seria ser terrível).σσσμ


* Aviso: é perfeitamente possível que a mediana da amostra exceda a média da amostra. Nesse caso, o estimador simples sugerido acima não ajuda em nada, uma vez que se baseia na média acima da mediana (fornecerá uma estimativa negativa para um parâmetro positivo).

Glen_b -Reinstate Monica
fonte