Estou tentando seguir a revisão de Princeton da teoria da probabilidade . Eles definem Fisher’s score function
como a primeira derivada da função log-verossimilhança e dizem que a pontuação é um vetor aleatório. Por exemplo, para a distribuição geométrica:
E eu posso ver que é realmente uma função (do parâmetro ), e é aleatória, pois envolve .
MAS então eles dizem algo que eu não entendo: "a pontuação avaliada no verdadeiro valor do parâmetro tem média zero" e eles a formulam como . O que significa avaliá-lo no "valor verdadeiro do parâmetro" e depois descobrir sua média? E no exemplo geométrico, se eu usar a identidade , não receberei imediatamente esse ? o que o "valor verdadeiro do parâmetro" tem a ver com isso?
Respostas:
Como você apontou, a função de pontuação é, sob condições de regularidade adequadas, definidas como "a primeira derivada da função de logaritmo verossimilhança".u
Vamos supor que é uma variável aleatória com função de densidade . Geralmente essa densidade muda dependendo de um vetor de parâmetros . Portanto, é conveniente escrever a função de densidade como para explicitar a dependência do parâmetro. Vamos supor que o valor "verdadeiro" de para a variável aleatória seja . (o que eu quero dizer é que )X f(x) π f(x;π) π X π=π0 X∼f(⋅;π0)
A função de pontuação agora pode ser escrita como: e agora está claro que é uma função de ambos e de . (Na sua pergunta, você tem no lugar de , mas não há diferença, pois a função de probabilidade é apenas a função de densidade.)
Considere agora a variável aleatória e sua expectativa . Aqui é importante notar que o subscrito existe para indicar o parâmetro (true) na distribuição de e diferenciá-lo do valor com o qual estamos calculando .u(π,X) ξ(π)=Eπ0(u(π,X)) π0 X π u
Assumindo quef é uma densidade contínua (o caso discreto é semelhante), temos:
e quando você avaliaξ no valor verdadeiro do parâmetro π0 Nós temos:
Esse é o raciocínio por trás da função score, com expectativa zero no parâmetro true.
Você deve dar uma olhada em livros como este (capítulo 3) para entender melhor as condições sob as quais essas derivações (como a troca de derivada e integral) são verdadeiras.
fonte
Ok, graças à excelente resposta @ Mur1lo, agora tenho uma melhor compreensão e gostaria de fazer minha própria tentativa de tornar esse conceito abstrato o mais concreto possível.
Suponha que tenhamos uma amostra de 5 resultados de sorteio de moedas. Assumimos que eles são amostrados de uma população com distribuição de Bernoulli com o parâmetro trueπ0 .
Quando olhamos para um sorteio específico com resultadox3=1 , podemos calcular a probabilidade logarítmica deste paciente de uma distribuição de Bernoulli com todos os tipos de valores de parâmetros, por exemploπ=0.2 ou π=0.9 e assim por diante. portanto, a probabilidade logarítmica é uma função que estima a probabilidade dex3 para cada valor possível de π .
O que significa simplesmente que sex3=1 a probabilidade disso era π e se for 0, a probabilidade disso é 1−π .
Se assumirmos a independência entre os sorteios das moedas, teremos uma função "média" que representa a probabilidade logarítmica de toda a amostra de n = 5 sorteios de moedas.
Queremos encontrar o máximo deLL(π|X) - a mle =πmle .
A função de pontuaçãou(π) é um vetor dos derivativos para cada parâmetro da probabilidade logarítmica. Felizmente, no nosso caso, é um escalar simples, pois há apenas um parâmetro. Sob algumas condições, isso nos ajudará a encontrarπmle , pois nesse ponto a função de pontuação seria u(πmle)=0 . Podemos calcular a função de pontuação de observação para uma única observação (sorteio de moedas):
e a função de pontuação da amostra de n = 5 pacientes:
quando definimos esta função mais recente como 0, obtemosπmle .
MAS, a amostra específica de 5 empates não tem nada a ver com a expectativa da função de pontuação! A expectativa é o valor da função de escore de observação para cada valor possível de x, multiplicado pela probabilidade desse valor, que é a função de densidade! No nosso caso, x pode assumir apenas 2 valores: 0 e 1. E a função densidade é como assumimos ser um Bernoulli com parâmetroπ0 :
e é claro que ele zera quando avaliado no parâmetro trueπ0 . A interpretação intuitiva é: Para cada valor deπ , qual é a taxa média de mudança na probabilidade?
A matriz de informações é a variação da probabilidade - qual será a sensibilidade da nossa solução para diferentes dados? (veja esta resposta ).
e quando avaliado no parâmetro trueπ0 simplifica para:
(consulte as notas do washington edu para obter mais detalhes).
Surpreendentemente, há outra maneira de medir o quão sensível a probabilidade seria em um certoπ ! essa é a expectativa da curvatura = Hessiana = segunda derivada. Quanto mais inclinada for a nossa probabilidade, mais precisos seremos. Veja detalhes no blog de mark reid
fonte