Estou tentando entender alguns trabalhos de Mark van der Laan. Ele é um estatístico teórico em Berkeley, trabalhando com problemas que se sobrepõem significativamente ao aprendizado de máquina. Um problema para mim (além da matemática profunda) é que ele muitas vezes acaba descrevendo abordagens familiares de aprendizado de máquina usando uma terminologia completamente diferente. Um de seus principais conceitos é "Expectativa de máxima verossimilhança direcionada".
O TMLE é usado para analisar dados observacionais censurados de um experimento não controlado de uma maneira que permita a estimativa do efeito, mesmo na presença de fatores de confusão. Suspeito fortemente que muitos dos mesmos conceitos existam sob outros nomes em outros campos, mas ainda não o entendo o suficiente para corresponder diretamente a qualquer coisa.
Uma tentativa de preencher a lacuna com a "Análise de dados computacionais" está aqui:
E uma introdução para estatísticos está aqui:
Inferência Causal Baseada em Máxima Verossimilhança Alvo: Parte I
A partir do segundo:
Neste artigo, desenvolvemos um determinado estimador de máxima verossimilhança direcionado de efeitos causais de várias intervenções no ponto do tempo. Isso envolve o uso de superaprendizado com base em perdas para obter uma estimativa inicial dos fatores desconhecidos da fórmula de computação G e, subsequentemente, aplicar uma função de flutuação ideal específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado, estimar o (s) parâmetro (s) de flutuação com estimativa de máxima verossimilhança e repetir esta etapa de atualização do fator inicial até a convergência. Essa etapa iterativa de atualização da probabilidade máxima direcionada torna o estimador resultante do efeito causal duas vezes robusto no sentido de que é consistente se o estimador inicial for consistente, ou o estimador da função de flutuação ideal é consistente. A função de flutuação ideal é especificada corretamente se as distribuições condicionais dos nós no gráfico causal em que se intervém forem especificadas corretamente.
Na sua terminologia, "superaprendizagem" é a aprendizagem em conjunto com um esquema de ponderação não negativo teoricamente sólido. Mas o que ele quer dizer com "aplicar uma função de flutuação ótima específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado".
Ou dividindo-o em três questões distintas, o TMLE possui paralelo no aprendizado de máquina, o que é um "submodelo paramétrico menos favorável" e o que é uma "função de flutuação" em outros campos?
Respostas:
Concordo que van der Laan tem a tendência de inventar novos nomes para idéias já existentes (por exemplo, o super-aprendiz), mas o TMLE não é um deles até onde eu sei. Na verdade, é uma ideia muito inteligente, e eu não vi nada da comunidade do Machine Learning que parecesse semelhante (embora eu possa apenas ser ignorante). As idéias vêm da teoria das equações de estimativa semiparamétricas eficientes, algo que penso que estatísticos pensam muito mais do que pessoas de ML.
A ideia é essencialmente essa. Suponha que é um verdadeiro mecanismo de geração de dados, e o interesse está em uma determinada função Ψ ( P 0 ) . Associado a esse funcional é frequentemente uma equação de estimativaP0 Ψ(P0)
onde é determinado de alguma maneira por P e contém informações suficientes para identificar Ψ . φ será tal que E P φ ( Y ∣ θ ) = 0 . Resolver esta equação em θ pode, por exemplo, ser muito mais fácil do que estimar todos os P 0 . Essa equação de estimativa é eficiente no sentido de que qualquer estimador eficiente de Ψ ( P 0 ) é assintoticamente equivalente a um que resolva essa equação.θ=θ(P) P Ψ φ EPφ(Y∣θ)=0 θ P0 Ψ(P0) (Nota: estou sendo um pouco flexível com o termo "eficiente", já que estou apenas descrevendo a heurística.) A teoria por trás de tais equações de estimativa é bastante elegante, sendo este livro a referência canônica. É aqui que podemos encontrar definições padrão de "submodelos menos favoráveis"; esses não são termos inventados por van der Laan.
e assim sucessivamente até obtermos algo, no limite, que satisfaça a equação de estimativa eficiente.
fonte