O que é "Expectativa de máxima verossimilhança direcionada"?

Estou tentando entender alguns trabalhos de Mark van der Laan. Ele é um estatístico teórico em Berkeley, trabalhando com problemas que se sobrepõem significativamente ao aprendizado de máquina. Um problema para mim (além da matemática profunda) é que ele muitas vezes acaba descrevendo abordagens familiares de aprendizado de máquina usando uma terminologia completamente diferente. Um de seus principais conceitos é "Expectativa de máxima verossimilhança direcionada".

O TMLE é usado para analisar dados observacionais censurados de um experimento não controlado de uma maneira que permita a estimativa do efeito, mesmo na presença de fatores de confusão. Suspeito fortemente que muitos dos mesmos conceitos existam sob outros nomes em outros campos, mas ainda não o entendo o suficiente para corresponder diretamente a qualquer coisa.

Uma tentativa de preencher a lacuna com a "Análise de dados computacionais" está aqui:

Entrando na era da ciência de dados: aprendizado direcionado e integração de estatística e análise de dados computacionais

E uma introdução para estatísticos está aqui:

Inferência Causal Baseada em Máxima Verossimilhança Alvo: Parte I

A partir do segundo:

Neste artigo, desenvolvemos um determinado estimador de máxima verossimilhança direcionado de efeitos causais de várias intervenções no ponto do tempo. Isso envolve o uso de superaprendizado com base em perdas para obter uma estimativa inicial dos fatores desconhecidos da fórmula de computação G e, subsequentemente, aplicar uma função de flutuação ideal específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado, estimar o (s) parâmetro (s) de flutuação com estimativa de máxima verossimilhança e repetir esta etapa de atualização do fator inicial até a convergência. Essa etapa iterativa de atualização da probabilidade máxima direcionada torna o estimador resultante do efeito causal duas vezes robusto no sentido de que é consistente se o estimador inicial for consistente, ou o estimador da função de flutuação ideal é consistente. A função de flutuação ideal é especificada corretamente se as distribuições condicionais dos nós no gráfico causal em que se intervém forem especificadas corretamente.

Na sua terminologia, "superaprendizagem" é a aprendizagem em conjunto com um esquema de ponderação não negativo teoricamente sólido. Mas o que ele quer dizer com "aplicar uma função de flutuação ótima específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado".

Ou dividindo-o em três questões distintas, o TMLE possui paralelo no aprendizado de máquina, o que é um "submodelo paramétrico menos favorável" e o que é uma "função de flutuação" em outros campos?

mathematical-statistics estimation nonparametric autocorrelation censoring Nathan Kurz
fonte

Uma razão pela qual a terminologia pode ser desconhecida é que o objetivo do TMLE é estimar o efeito médio do tratamento - inferência causal, não previsão. Quando li "super aprendiz" em artigos no TMLE, pensei que os autores emprestaram o termo do pacote SuperLearner em R para a construção de modelos de conjuntos.

RobertF 24/09/19

Respostas:

Concordo que van der Laan tem a tendência de inventar novos nomes para idéias já existentes (por exemplo, o super-aprendiz), mas o TMLE não é um deles até onde eu sei. Na verdade, é uma ideia muito inteligente, e eu não vi nada da comunidade do Machine Learning que parecesse semelhante (embora eu possa apenas ser ignorante). As idéias vêm da teoria das equações de estimativa semiparamétricas eficientes, algo que penso que estatísticos pensam muito mais do que pessoas de ML.

A ideia é essencialmente essa. Suponha que é um verdadeiro mecanismo de geração de dados, e o interesse está em uma determinada função . Associado a esse funcional é frequentemente uma equação de estimativa $P_0$ $\Psi(P_0)$

\sum_{i} φ (Y_{i} ∣ θ) = 0,

$\sum_i \varphi(Y_i \mid \theta) = 0,$

onde é determinado de alguma maneira por e contém informações suficientes para identificar . será tal que . Resolver esta equação em pode, por exemplo, ser muito mais fácil do que estimar todos os . Essa equação de estimativa é eficiente no sentido de que qualquer estimador eficiente de é assintoticamente equivalente a um que resolva essa equação. $\theta = \theta(P)$ $P$ $\Psi$ $\varphi$ $E_{P} \varphi(Y \mid \theta) = 0$ $\theta$ $P_0$ $\Psi(P_0)$ (Nota: estou sendo um pouco flexível com o termo "eficiente", já que estou apenas descrevendo a heurística.) A teoria por trás de tais equações de estimativa é bastante elegante, sendo este livro a referência canônica. É aqui que podemos encontrar definições padrão de "submodelos menos favoráveis"; esses não são termos inventados por van der Laan.

$P_0$ $P_0$ $\Psi(P_0)$ $P_0$ $\hat P$ $\Psi(\hat P)$ $\sqrt n$ $P_0$ $\Psi$

$\hat p$

{\hat{p}}_{1, ϵ} = \frac{\hat{p} \exp (ϵ φ (Y ∣ θ))}{\int \hat{p} \exp (ϵ φ (y ∣ θ)) d y}

$\hat p_{1, \epsilon} = \frac{\hat p \exp(\epsilon \ \varphi(Y \mid \theta))}{\int \hat p \exp(\epsilon \ \varphi(y \mid \theta)) \ dy}$

$\epsilon$ $\epsilon$ $\epsilon = 0$ $\hat p$ $\Psi$ $\epsilon \ne 0$ $\hat p_1$ $\hat p$

{\hat{p}}_{2, ϵ} \propto {\hat{p}}_{1, \hat{ϵ}} \exp (ϵ φ (Y ∣ θ) .

$\hat p_{2, \epsilon} \propto \hat p_{1, \hat \epsilon} \exp(\epsilon \ \varphi(Y \mid \theta).$

e assim sucessivamente até obtermos algo, no limite, que satisfaça a equação de estimativa eficiente.

cara
fonte

"Concordo que van der Laan tem a tendência de inventar novos nomes para idéias já existentes" - Sim, veja esta introdução ao TMLE: biostats.bepress.com/ucbbiostat/paper252 , onde van der Laan usa "engrossamento aleatório" para significar permutabilidade e "suposição de atribuição de tratamento experimental (ETA)" para significar positividade. :-) Não é muito incomum em nosso campo. Os cientistas de dados usam termos como recall, precisão e testes A / B que aprendi como sensibilidade, valor preditivo positivo e testes de hipóteses na faculdade.

RobertF 26/09/19

O @RobertF CAR é devido a Heitjan e Rubin e é uma generalização do MAR. Rubin inventou a MAR e também popularizou a estrutura de resultados em potencial, portanto, usar o CAR como um exemplo genérico para as suposições do tipo ignorabilidade / permutabilidade me parece justo.

guy