Regressão de Poisson com grandes dados: é errado alterar a unidade de medida?

17

Devido ao fatorial em uma distribuição de poisson, torna-se impraticável estimar modelos de poisson (por exemplo, usando máxima verossimilhança) quando as observações são grandes. Por exemplo, se estou tentando estimar um modelo para explicar o número de suicídios em um determinado ano (apenas dados anuais estão disponíveis) e dizer que há milhares de suicídios a cada ano, é errado expressar suicídios em centenas , de modo que 2998 seria 29,98 ~ = 30? Em outras palavras, é errado alterar a unidade de medida para tornar os dados gerenciáveis?

modeling poisson-distribution large-data Vivi
fonte

15

Quando você está lidando com uma distribuição Poisson com grandes valores de \ lambda (seu parâmetro), é comum usar uma aproximação normal à distribuição Poisson.

Como este site menciona, não há problema em usar a aproximação normal quando \ lambda tiver mais de 20 anos, e a aproximação será aprimorada à medida que \ lambda ficar ainda mais alto.

A distribuição de Poisson é definida apenas no espaço de estados que consiste em números inteiros não negativos, portanto, o redimensionamento e o arredondamento introduzirão coisas estranhas nos seus dados.

Usando o normal aprox. para grandes estatísticas de Poisson é MUITO comum.

Baltimark
fonte

6

No caso de Poisson, é ruim, já que contagens são contagens - sua unidade é uma unidade. Por outro lado, se você usar algum software avançado como o R, suas funções de manipulação do Poisson estarão cientes de números tão grandes e usariam alguns truques numéricos para lidar com eles.

Obviamente, eu concordo que a aproximação normal é outra boa abordagem.

fonte

3

A maioria dos pacotes estatísticos possui uma função para calcular o logaritmo natural do fatorial diretamente (por exemplo, a função lfactorial () em R, a função lnfactorial () em Stata). Isso permite incluir o termo constante na probabilidade de log, se desejar.

uma parada
fonte

Além disso, n!= Gamma(n+1)para n> = 0. Portanto, tente procurar por uma função chamada Gammase você precisa calcular o fatorial (ou log Gamma se você está calculando a probabilidade log)

Andre Holzner

3

Receio que você não possa fazer isso. Como afirma @Baltimark, com o lambda grande, a distribuição terá uma forma mais normal (simétrica) e, ao reduzi-la, deixará de ser uma distrubuição de poisson. Tente o seguinte código em R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

O resultado está abaixo:

insira a descrição da imagem aqui

Você pode ver que o poisson reduzido (linha vermelha) é completamente diferente da distribuição do poisson.

Curioso
fonte

1

Você pode simplesmente ignorar o 'fatorial' ao usar a máxima probabilidade. Aqui está o raciocínio para o seu exemplo de suicídios. Deixei:

λ: ser o número esperado de suicídios por ano

k _i : Seja o número de suicídios no ano i.

Então você maximizaria a probabilidade de log como:

LL = Σ (k _i log (λ) - λ - k _i !)

Maximizar o acima é equivalente a maximizar o seguinte como k _i ! é uma constante:

LL ^' = ∑ (k _i log (λ) - λ)

Poderia explicar por que o fatorial é um problema? Estou esquecendo de algo?

fonte

Você não está perdendo algo se tudo o que você está tentando fazer é estimar o parâmetro a partir de um conjunto de observações. Essa foi definitivamente a principal idéia da pergunta do OP. No entanto, ela também estava perguntando em geral (se não rigorosamente) "como estimar modelos de poisson". Talvez ela queira saber o valor do pdf em um ponto específico. Nesse caso, o valor aproximado normal provavelmente será melhor do que escalar o parâmetro e as observações em 100, ou o que seja, se as observações forem grandes o suficiente para tornar impraticável o cálculo do fatorial.

Baltimark

1

@ Krikant, você está certo, ao estimar os parâmetros do fatorial não é um problema, mas em geral você deseja o valor da probabilidade de um determinado modelo, e você teria que usar o fatorial para isso. Além disso, para o teste de hipóteses (por exemplo, teste da razão de verossimilhança), você precisará do valor da probabilidade.

Vivi

@Baltimark: sim, eu quero saber em geral, se é válido alterar a unidade de medida de Poisson. Me fizeram essa pergunta e não sabia o que dizer.

Vivi

@Vivi: Não sei por que você gostaria de calcular a probabilidade com k_i! incluída na maioria das aplicações (por exemplo, teste de razão de verossimilhança, estimativa bayesiana), a constante não importa. De qualquer forma, não acho que você possa redimensionar conforme sugerido. Se eu sentir o contrário, atualizarei minha resposta.

@ Krikant, entendo o seu ponto, mas alguns softwares (Eviews, por exemplo) incluem isso por padrão, e grandes números são um problema que você gosta ou não. Acho que eu estava realmente depois de uma explicação de por que você pode ou não pode fazê-lo em vez de uma maneira de contornar isso, mas a discussão tem sido interessante e instrutivo, no entanto :)

Vivi

Regressão de Poisson com grandes dados: é errado alterar a unidade de medida?

Respostas: