Qual é a diferença entre os termos 'função de link' e 'função de link canônico'? Além disso, existem vantagens (teóricas) em usar uma sobre a outra?
Por exemplo, uma variável de resposta binária pode ser modelada usando muitas funções de link, como logit , probit , etc. Mas, logit aqui é considerada a função de link "canônica".
logistic
generalized-linear-model
link-function
peixe firme
fonte
fonte
Respostas:
As respostas acima são mais intuitivas, por isso tento mais rigor.
O que é um GLM?
Vamos denotar um conjunto de uma resposta e -dimensional covariável vetor com o valor esperado . Para observações independentes, a distribuição de cada é uma família exponencial com densidade Aqui, o parâmetro de interesse (parâmetro natural ou canônico) é , é um parâmetro de escala (conhecido ou visto como incômodo) e e são funções conhecidas. Oy p x = ( x 1 , … , x p ) E ( y ) = μ i = 1 , … , n y i f ( y i ; θ i , ϕ ) = exp { [ y i θ i - γ ( θ i ) ] /Y= ( y, X ) y p x=(x1,…,xp) E(y)=μ i=1,…,n yi
A função é chamada de função de link. Se a função conectar , e tal forma que , esse link será chamado canônico e terá a forma .μ η θ η ≡ θ g = ( γ ′ ) - 1g(⋅) μ η θ η≡θ g=(γ′)−1
É isso aí. Depois, existem várias propriedades estatísticas desejáveis do uso do link canônico, por exemplo, a estatística suficiente é com componentes para , pontuação do Método Newton e Fisher para achando que o estimador de ML coincide, esses links simplificam a derivação do MLE, asseguram que algumas propriedades da regressão linear (por exemplo, a soma dos resíduos é 0) se sustentem ou garantem que permanece dentro do intervalo da variável de resultado .Σ i x i j y i j = 1 , ... , p μX′y ∑ixijyi j=1,…,p μ
Portanto, eles tendem a ser usados por padrão. Observe, no entanto, que não há uma razão a priori para que os efeitos no modelo sejam aditivos na escala fornecida por este ou qualquer outro link.
fonte
Gung citou uma boa explicação: o elo canônico possui propriedades teóricas especiais de suficiência mínima. Isso significa que você pode definir um modelo de logit condicional (que os economistas chamam de modelo de efeito fixo) condicionando o número de resultados, mas não é possível definir um modelo de probit condicional, porque não há estatísticas suficientes para usar com o link probit.
fonte
Aqui está um pequeno diagrama inspirado na classe 18.650 do MIT, que eu acho bastante útil, pois ajuda a visualizar os relacionamentos entre essas funções. Eu usei a mesma notação que no post de @ momo:
Portanto, a função de ligação relaciona o preditor linear à média e é necessário que seja um aumento monótono, continuamente diferenciável e invertível.g
O diagrama permite ir facilmente de uma direção para outra, por exemplo:
θ = γ ′ - 1 ( g - 1 ( η ) )
Função de ligação canônica
Outra maneira de entender o que Momo descreveu rigorosamente é que, quando é a função de link canônico, a composição da função é a identidade e, portanto, obtemos γ - 1 ∘ g - 1 = ( g ∘ γ ′ ) - 1 = I θ = ηg
fonte
As respostas acima já cobriram o que quero dizer. Apenas para esclarecer alguns pontos como pesquisador de aprendizado de máquina:
A função de link nada mais é do que a inversa da função de ativação. Por exemplo, logit é o inverso do sigmóide, probit é o inverso da função de distribuição cumulativa de gaussiana.
Se tomarmos o parâmetro do modelo linear generalizado para depende apenas , com sendo o vetor de pesos e como entrada, então a função de ligação é chamado canônico.w xwTx w x
A discussão acima não tem nada a ver com família exponencial, mas uma boa discussão pode ser encontrada no livro PRML de Christopher Bishop, capítulo 4.3.6.
fonte