Do curso elementar de probabilidade, as distribuições de probabilidade como Gaussian, Poisson ou exponencial têm uma boa motivação. Depois de encarar a fórmula das distribuições exponenciais da família por um longo tempo, ainda não tenho intuição.
Alguém pode me ajudar a entender Por que precisamos disso em primeiro lugar? Quais são algumas vantagens de modelar uma variável de resposta para ser família exponencial versus normal?
EDIT: Pela família exponencial, eu quis dizer a classe geral de distribuições descrita aqui .
exponential-family
habitante do norte
fonte
fonte
Respostas:
A família exponencial é muito mais ampla que a normal. Por exemplo, qual é a vantagem de usar um Poisson ou um binômio em vez de um normal? Um normal não é muito útil se você conta com uma média baixa. E se seus dados forem contínuos, mas com muita inclinação - talvez vezes ou valores monetários? A família exponencial inclui o normal, o binomial, o Poisson e o Gamma como casos especiais (entre muitos outros)
Ele incorpora uma ampla variedade de relações de média de variância .
Deriva da tentativa de responder a uma pergunta na linha de "quais distribuições são funções de uma estatística suficiente " e, portanto, os modelos podem ser estimados via ML usando estatísticas suficientes muito simples; isso inclui os modelos usuais disponíveis em programas que se encaixam em modelos lineares generalizados. De fato, a estatística suficiente ( ) é explícita na função de densidade da família exponencial.T( X )
Isso facilita a dissociação do relacionamento entre a resposta e o preditor da distribuição condicional da resposta (via funções de link). Por exemplo, você pode ajustar um relacionamento linear a um modelo que especifica que a resposta condicional tem uma distribuição gama ou um relacionamento exponencial com uma resposta condicionalmente gaussiana em uma estrutura GLM.
Para os bayesianos, a família exponencial é bastante interessante porque todos os membros da família exponencial têm antecedentes conjugados.
fonte
Para mim, a principal motivação por trás das distribuições familiares exponenciais é que elas são as famílias de distribuição máxima de entropia, dado um conjunto de estatísticas e suporte suficientes. Em outras palavras, eles são distribuição suposta mínima.
Por exemplo, se você medir apenas a média e a variação da quantidade com valor real, a opção de modelagem menos suposta é uma distribuição normal.
Do ponto de vista da computação, há outras vantagens:
Eles são fechados em "combinação de evidências". Ou seja, a combinação de duas probabilidades independentes da mesma família exponencial está sempre na mesma família exponencial e seus parâmetros naturais são meramente a soma dos parâmetros naturais de seus componentes. Isso é conveniente para as estatísticas bayesianas.
O gradiente da entropia cruzada entre duas distribuições exponenciais da família é a diferença de seus parâmetros de expectativa. Isso significa que uma função de perda que é uma entropia cruzada é a chamada função de perda correspondente , que é conveniente para otimização.
fonte
A lista de Glen é boa. Vou acrescentar mais 1 aplicativo para complementar sua resposta: derivando anteriores conjugados para inferência bayesiana.
podemos simplesmente escrever um conjugado antes como
e depois o posterior funciona como
Por que essa conjugação é útil? Porque simplifica nossa interpretação e computação enquanto realizamos inferência bayesiana. Também significa que podemos facilmente criar expressões analíticas para o posterior sem precisar fazer muita álgebra.
fonte
Você deseja que seu modelo de dados reflita o processo de geração. O 'processo' que gera variáveis gaussianas tem características muito diferentes das que governam o exponencial, e nem sempre é intuitivo quanto ao motivo. Às vezes você precisa apreciar outras características distributivas. Como um exemplo, considere que a função de risco para Gaussian está aumentando enquanto exponencial é plana. Como um exemplo prático trivial, suponha que eu vou te cutucar em intervalos e o 'intervalo entre cutucadas' seja escolhido pela função de geração Gaussiana ou exponencial. Sob um gaussiano, você descobriria que os puxões são previsíveis e se sentem altamente prováveis após longos intervalos. Sob exponencial, eles se sentiriam muito imprevisíveis. A razão para isso é devido à função geradora, que depende do fenômeno subjacente.
fonte