Por um tempo, pareceu que Fisher Kernels poderia se tornar popular, pois parecia ser uma maneira de construir kernels a partir de modelos probabilísticos. No entanto, raramente os vi sendo usados na prática, e tenho muita autoridade que eles tendem a não funcionar muito bem. Eles contam com o cálculo das informações de Fisher - citando a Wikipedia:
as informações de Fisher são negativas da expectativa da segunda derivada em relação a θ do logaritmo natural de f. A informação pode ser vista como uma medida da "curvatura" da curva de suporte próxima à estimativa de máxima verossimilhança (MLE) de θ.
Tanto quanto posso dizer, isso significa que a função do kernel entre dois pontos é a distância ao longo dessa superfície curva - estou certo?
Entretanto, isso pode ser problemático para uso em métodos de kernel, como
- O MLE pode ser uma estimativa muito ruim para um determinado modelo
- A curvatura da curva de suporte ao redor do MLE pode não ser útil para discriminar entre instâncias, por exemplo, se a superfície de probabilidade estiver muito alta
- Isso parece jogar fora muita informação sobre o modelo
Se for esse o caso, existem formas mais modernas de construir kernels a partir de métodos probabilísticos? Por exemplo, poderíamos usar um conjunto de espera para usar as estimativas do MAP da mesma maneira? Que outras noções de distância ou similaridade dos métodos probabilísticos poderiam funcionar para construir uma função (válida) do kernel?