Compensações podem ser usadas em qualquer modelo de regressão, mas são muito mais comuns ao trabalhar com dados de contagem para sua variável de resposta. Um deslocamento é apenas uma variável que é forçada a ter um coeficiente de no modelo. (Veja também este excelente tópico do CV: Quando usar um deslocamento em uma regressão de Poisson? ) 1
Quando usado corretamente com dados de contagem, isso permite modelar taxas em vez de contagens . Se isso for interessante, é algo a se fazer. Portanto, esse é o contexto em que as compensações são usadas com mais frequência. Vamos considerar um Poisson GLiM com um link de log (que é o link canônico).
em( λ )em( λt i m e)em( λ ) - ln( t i m e )em( λ )em( λ )= β0 0+ β1X= β0 0+ β1X⇒= β0 0+ β1X= β0 0+ β1X+ 1 × ln( t i m e )≠= β0 0+ β1X+ β2× ln( t i m e )w h e n β 2≠ 1( C o u n t s )( r a t e s )( S t i l l r uma t e s )( C o u n t s um g de um i n )
(Como você pode ver, a chave para usar um deslocamento corretamente é tornar o deslocamento, não t i m e .) em( t i m e )t i m e
Quando o coeficiente em não é 1 , você não está mais modelando taxas. Porém, como β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) fornece uma flexibilidade muito maior para ajustar os dados, modelos que não usam ln ( t i m e ) como um deslocamento geralmente se ajustam melhor (embora possam também super ajuste). em( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )em( t i m e )
Se você deve modelar contagens ou taxas realmente depende de qual é sua pergunta substantiva. Você deve modelar o que corresponde ao que deseja saber.
Quanto ao significado de não ser 1 , considere um exemplo em que o tempo não é a variável em questão. Imagine estudar o número de complicações cirúrgicas em diferentes hospitais. Um hospital tem muito mais complicações cirúrgicas relatadas, mas elas podem alegar que a comparação não é justa porque fazem muito mais cirurgias. Então você decide tentar controlar isso. Você pode simplesmente usar o log do número de cirurgias como um deslocamento, o que permitiria estudar a taxa de complicações por cirurgia. Você também pode usar o log do número de cirurgias como outra covariável. Digamos que o coeficiente seja significativamente diferente de 1 . Se β 2 > 1β211β2> 1, os hospitais que realizam mais cirurgias têm uma taxa mais alta de complicações (talvez porque estejam se apressando para fazer mais). Se , os hospitais que mais apresentam menos complicações por cirurgia (talvez eles tenham os melhores médicos e, portanto, mais e melhor). β2< 1
Ver como isso poderia acontecer se a variável em questão fosse tempo é um pouco mais complicado. A distribuição de Poisson surge do processo de Poisson , no qual o tempo entre os eventos é distribuído exponencialmente e, portanto, existe uma conexão natural com a análise de sobrevivência. Na análise de sobrevivência, o tempo para os eventos geralmente não é distribuído como exponencial, mas o risco da linha de base pode se tornar maior ou menor ao longo do tempo. Portanto, considere um caso em que você esteja modelando o número de eventos que ocorrem após algum ponto de partida natural. Se , isso significa que a taxa de eventos está aumentando, enquanto se β 2 < 1β2> 1β2< 1, isso significa que a taxa de eventos está diminuindo.
Para um exemplo concreto do primeiro, imagine uma varredura que conte o número de células cancerígenas um período de tempo após a remoção cirúrgica do tumor inicial. Para alguns pacientes, mais tempo se passou desde a cirurgia e você queria levar isso em conta. Uma vez que um câncer recupere sua posição, começará a crescer exponencialmente, a taxa aumentará ao longo do tempo desde a cirurgia sem tratamento adicional.
Para um exemplo concreto deste último, considere o número de pessoas que morrem de um surto de doença para o qual não temos tratamento. No início, muitas pessoas morrem porque eram mais suscetíveis a essa doença ou já tinham um sistema imunológico comprometido etc. Com o tempo, à medida que a população de pessoas restantes é menos suscetível à doença, a taxa diminui. (Desculpe, este exemplo é tão mórbido.)
Time offsets can usually be viewed as your model estimating the rate an event occurs per unit time, with the offset controlling for how long you observed different subjects.
In poisson models you are always estimating a rate that something happens, but you never get to observe this rate directly. You do get to observe the number of times that an event happens over some amount of time. The offset makes the connection between the two concepts.
For example, you observed subjects shooting baskets for varying amounts of time, and you counted the number of successful baskets for each subject. What you are really interested in in how often each subject sinks a basket, i.e. the number of successful baskets each subject expects to sink each minute, as that is a somewhat objective measure of their skill. The number of baskets you actually observed sunk would then be this estimated rate times how long you observed the subject attempting. So you can think in terms of the units of the response, the number of baskets per minute.
Its difficult to think of a situation where you would use time observed as a covariate in a poisson regression, since by its very nature you are estimating a rate.
Aqui está um exemplo que, com sorte, destaca o perigo disso. Suponha que americanos e europeus, na verdade, afundam o mesmo número de cestas a cada minuto. Mas digamos que observamos cada europeu pelo dobro do tempo de cada americano; portanto, em média, observamos o dobro de cestas para cada europeu.
Se configurarmos um modelo que inclui parâmetros para o tempo observado e um indicador "é europeu", os dois modelos explicam os dados:
(Ondec é uma constante, que é a taxa real em que os dois tipos de jogadores fazem cestas).
Como estatístico, realmente queremos que, nessa situação, nosso modelo nos informe que não há diferença estatística entre a taxa que os europeus fazem cestas e a taxa que os americanos fazem cestas. Mas nosso modelo falhou em fazê-lo, e ficamos confusos.
A questão é que nós sabemos algo que nosso modelo é que não sei. Isto é, nós sabemos que se observar o mesmo indivíduo para o dobro do tempo, que, na expectativa, eles vão fazer o dobro de cestas. Como sabemos disso, precisamos informar o nosso modelo. É isso que a compensação realiza.
Sim, mas isso é uma suposição do próprio modelo de poisson . Na página da wikipedia na distribuição de poisson
fonte