Qual é a diferença entre uma "função de link" e uma "função de link canônico" para GLM

65

Qual é a diferença entre os termos 'função de link' e 'função de link canônico'? Além disso, existem vantagens (teóricas) em usar uma sobre a outra?

Por exemplo, uma variável de resposta binária pode ser modelada usando muitas funções de link, como logit , probit , etc. Mas, logit aqui é considerada a função de link "canônica".

peixe firme
fonte
10
Discuto aqui extensivamente as funções de link: Diferença entre os modelos logit e probit , com foco na regressão para uma variável de resposta binária. Embora apenas um pouco dessa discussão se concentre no significado de uma função de link ser "canônica", ainda assim pode ser útil ler. Observe que para entender a distinção entre vantagens e vantagens de uma função de link canônico versus não canônico, é necessário aprofundar bastante a matemática subjacente ao GLiM.
gung - Restabelece Monica

Respostas:

68

As respostas acima são mais intuitivas, por isso tento mais rigor.

O que é um GLM?

Vamos denotar um conjunto de uma resposta e -dimensional covariável vetor com o valor esperado . Para observações independentes, a distribuição de cada é uma família exponencial com densidade Aqui, o parâmetro de interesse (parâmetro natural ou canônico) é , é um parâmetro de escala (conhecido ou visto como incômodo) e e são funções conhecidas. Oy p x = ( x 1 , , x p ) E ( y ) = μ i = 1 , , n y i f ( y i ; θ i , ϕ ) = exp { [ y i θ i - γ ( θ i ) ] /Y=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnvetores tridimensionais de valores de entrada fixos para as variáveis ​​explicativas são indicados por . Assumimos que os vetores de entrada influenciam (1) somente através de uma função linear, o preditor linear, dos quais depende. Como pode ser mostrado que , essa dependência é estabelecida conectando o preditor linear e através da média. Mais especificamente, a média é vista como uma função invertível e suave do preditor linear, ou seja, px1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ)ηθμ
g(μ)=η or μ=g1(η)
Agora respondendo à sua questão:

A função é chamada de função de link. Se a função conectar , e tal forma que , esse link será chamado canônico e terá a forma .μ η θ η θ g = ( γ ) - 1g()μηθηθg=(γ)1

É isso aí. Depois, existem várias propriedades estatísticas desejáveis ​​do uso do link canônico, por exemplo, a estatística suficiente é com componentes para , pontuação do Método Newton e Fisher para achando que o estimador de ML coincide, esses links simplificam a derivação do MLE, asseguram que algumas propriedades da regressão linear (por exemplo, a soma dos resíduos é 0) se sustentem ou garantem que permanece dentro do intervalo da variável de resultado .Σ i x i j y i j = 1 , ... , p μXyixijyij=1,,pμ

Portanto, eles tendem a ser usados ​​por padrão. Observe, no entanto, que não há uma razão a priori para que os efeitos no modelo sejam aditivos na escala fornecida por este ou qualquer outro link.

Momo
fonte
5
+1, esta é uma resposta muito boa, @Momo. Eu achei algumas das equações mais difíceis de ler quando elas foram enterradas nos parágrafos, então eu as "bloqueei" usando cifrões duplos (ou seja, $ $). Espero que esteja tudo bem (se não, você pode reverter, com minhas desculpas).
gung - Restabelece Monica
11
@Momo, a pergunta original aqui inclui, no entanto, o que Wei perguntou, por isso vale ressaltar que ainda não foi claramente respondida.
Glen_b 22/02
11
Espero entender sua confusão corretamente: na família exponencial de que você fala, o parâmetro canônico é e o link canônico é quando que é quando . Como também (se você calcular o valor esperado da primeira derivada em relação a da função de verossimilhança), o único caso em que aparece quando . θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
Momo
11
Muito obrigado. Usando o exemplo anterior, temos que . Portanto . Como você disse (apenas refizendo a frase), só temos se For o link canônico, que é o logit. Então teremos . Portanto, a igualdade entre e o preditor existe apenas se usarmos a função de link canônico. γ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθη
Druss2k
2
Parece que há um erro de digitação na frase-chave da resposta: não deveria ler "se a função conectar e st "? μθηθ
Leo Alekseyev 28/01
16

Gung citou uma boa explicação: o elo canônico possui propriedades teóricas especiais de suficiência mínima. Isso significa que você pode definir um modelo de logit condicional (que os economistas chamam de modelo de efeito fixo) condicionando o número de resultados, mas não é possível definir um modelo de probit condicional, porque não há estatísticas suficientes para usar com o link probit.

StasK
fonte
Você pode elaborar um pouco sobre a suficiência mínima? Pela explicação acima, ainda podemos definir um modelo probit, certo? Não será a função de link canônico, com certeza, mas qual é o mal em usar uma função de link não canônico.
Pikachuchameleon
9

Aqui está um pequeno diagrama inspirado na classe 18.650 do MIT, que eu acho bastante útil, pois ajuda a visualizar os relacionamentos entre essas funções. Eu usei a mesma notação que no post de @ momo:

insira a descrição da imagem aqui

  • γ(θ) é a função cumulativa de geração de momentos
  • g(μ) é a função de link

Portanto, a função de ligação relaciona o preditor linear à média e é necessário que seja um aumento monótono, continuamente diferenciável e invertível.g

O diagrama permite ir facilmente de uma direção para outra, por exemplo:

θ = γ - 1 ( g - 1 ( η ) )

η=g(γ(θ))
θ=γ1(g1(η))

Função de ligação canônica

Outra maneira de entender o que Momo descreveu rigorosamente é que, quando é a função de link canônico, a composição da função é a identidade e, portanto, obtemos γ - 1g - 1 = ( g γ ) - 1 = I θ = ηg

γ1g1=(gγ)1=I
θ=η
Xavier Bourret Sicotte
fonte
1

As respostas acima já cobriram o que quero dizer. Apenas para esclarecer alguns pontos como pesquisador de aprendizado de máquina:

  1. A função de link nada mais é do que a inversa da função de ativação. Por exemplo, logit é o inverso do sigmóide, probit é o inverso da função de distribuição cumulativa de gaussiana.

  2. Se tomarmos o parâmetro do modelo linear generalizado para depende apenas , com sendo o vetor de pesos e como entrada, então a função de ligação é chamado canônico.w xwTxwx

A discussão acima não tem nada a ver com família exponencial, mas uma boa discussão pode ser encontrada no livro PRML de Christopher Bishop, capítulo 4.3.6.

Guojun Zhang
fonte