No primeiro capítulo do livro Geometria Algébrica e Teoria Estatística da Aprendizagem, que fala sobre a convergência de estimativas em diferentes espaços funcionais, ele menciona que a estimativa bayesiana corresponde à topologia de distribuição de Schwartz, enquanto a estimativa de máxima verossimilhança corresponde à topologia de super-norma. (na página 7):
Por exemplo, sup-norma, -orm, topologia fraca do espaço Hilbert , topologia de distribuição Schwartz e assim por diante. Depende fortemente da topologia do espaço de função se a convergência mantém ou não. A estimativa de Bayes corresponde à topologia de distribuição de Schwartz, enquanto a probabilidade máxima ou um método a posteriori corresponde à norma. Essa diferença afeta fortemente os resultados da aprendizagem em modelos singulares.
em que e são, respectivamente, o empírica KL-divergência (soma sobre observações) e o verdadeiro KL-divergência (WRT integrante da distribuição de dados) entre o verdadeiro modelo e um modelo paramétrico (com parâmetro ).
Alguém pode dar uma explicação ou me indicar qual lugar do livro tem a justificativa? Obrigado.
Atualização : o conteúdo dos direitos autorais é removido.
Respostas:
Para entender a discussão de Watanabe, é importante perceber o que ele quis dizer com "singularidade". A singularidade (estrita) coincide com a noção geométrica de métrica singular em sua teoria.
Na prática, a singularidade geralmente surge quando a métrica de informações de Fisher induzida pelo modelo degenerada no coletor definido pelo modelo, como baixa classificação ou casos esparsos em trabalhos de "aprendizado de máquina".
O que Watanabe disse sobre a convergência da divergência empírica de KL para seu valor teórico pode ser entendido a seguir. Uma origem da noção de divergência vem de estatísticas robustas. Os estimadores M, que incluem MLE como um caso especial com função de contraste , são geralmente discutidos usando topologia fraca. É razoável discutir o comportamento da convergência usando topologia fraca sobre o espaço M ( X ) (a variedade de todas as medidas possíveis definidas no espaço polonês Xρ ( θ , δ( X) ) = - logp ( X∣ θ ) M( X) X ) porque queremos estudar o comportamento da robustez do MLE. Um teorema clássico em [Huber] afirmou que com a função de divergência bem separada . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D ( θ0 0, θ ) = Eθ0 0ρ ( θ , δ)
Então aqui os estimadores bayesianos e o MLE divergem. Se ainda usarmos uma topologia fraca para discutir a consistência dos estimadores bayesianos, não faz sentido porque os estimadores bayesianos sempre (com probabilidade 1) serão consistentes por Doob. Portanto, uma topologia mais apropriada é a topologia de distribuição de Schwarz, que permite derivadas fracas e a teoria de von Mises entrou em cena. Barron tinha um relatório técnico muito bom sobre esse tópico, como poderíamos usar o teorema de Schwartz para obter consistência.
O "resultado singular da aprendizagem" é afetado porque, como vemos, o teorema da consistência de Doob garante que os estimadores bayesianos sejam fracamente consistentes (mesmo no modelo singular) em topologia fraca, enquanto o MLE deve atender a certos requisitos na mesma topologia.
Apenas uma palavra, [Watanabe] não é para iniciantes. Ela tem implicações profundas em conjuntos analíticos reais, que exigem mais maturidade matemática do que a maioria dos estatísticos, portanto, provavelmente não é uma boa ideia lê-la sem a orientação apropriada.
[Watanabe] Watanabe, Sumio. Geometria algébrica e teoria estatística de aprendizagem. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "O comportamento das estimativas de máxima verossimilhança em condições fora do padrão". Anais do quinto simpósio de Berkeley sobre estatística matemática e probabilidade. Vol. 1. No. 1. 1967.
[Doob] Doob, Joseph L. "Aplicação da teoria de martingales". O cálculo das probabilidades e aplicações (1949): 23-27.
fonte