Deixei ser uma variável aleatória que obedeça à distribuição Tweedie para o parâmetro . Deixe a função de link ser o log natural. Suponha que tenhamos um banco de dados de números do formulário
...
.
As variáveis são uma mistura de variáveis categóricas e variáveis contínuas. Por ser um GLM, sabemos que
. Então, aqui está minha pergunta: dado o banco de dados de números e usando o fato de que essa é uma distribuição Tweedie com um determinado parâmetro, qual algoritmo eu uso para escolher melhor? Preciso minimizar uma função de erro ou estimar parâmetros de máxima probabilidade?
generalized-linear-model
tweedie-distribution
FloatingFoundation92
fonte
fonte
statmod
(e algumas funções úteis adicionais estão notweedie
pacote em R, comoAICtweedie
). Embora você possa gerenciar sem eles, se souber conduzir o glm bem o suficiente, sugiro que você use os pacotes.Respostas:
Você conhece os modelos lineares generalizados em R? Em caso afirmativo, você pode instalar o Tweedie glms como qualquer outro glms. A definição da família glm necessária para fazer isso acontecer é fornecida pelo pacote statmod R do CRAN.
Tweedie glms assume que a função de variação é uma função de potência:
Aqui está um exemplo de código R:
O pacote Tweedie permite que você ajuste um glm com qualquer função de energia e qualquer link de energia. Na chamada de família glm, var.power é oα parâmetro para que var.power = 1.1 especifique α = 1,1 . O var.power refere-se ao expoente da função glm variance, de modo que var.power = 0 especifica uma família normal, var.power = 1 significa família Poisson, var.power = 2 significa família gama, var.power = 3 significa inverso Família gaussiana e assim por diante. Valores entre 0 e 1 não são permitidos, mas praticamente qualquer outra coisa é permitida.
link.power = 0 especifica um link de log. O link é especificado em termos de poderes de transformação Box-Cox, portanto link.power = 1 é o link de identidade e link.power = 0 significa log.
O modelo acima pressupõe queyEu∼T W e e d i eα(μEu, ϕ ) Onde
Os coeficientes de regressãoβj foram estimados por probabilidade máxima. O parâmetro de dispersãoϕ foi estimado usando a soma residual dos resíduos quadrados - isso é chamado de estimador de Pearson.
Independentemente do queα ou link usado, qualquer uma das funções a jusante fornecidas em R para glms funcionará no objeto de modelo ajustado por glm produzido por glm ().
fonte