Calculando pesos de probabilidade inversa - estimativa de densidade condicional (multivariada)?

8

A versão geral:

Preciso estimar onde e são contínuos e multivariados. Prefiro fazê-lo de forma não paramétrica, porque não tenho uma boa forma funcional em mente e precisa ser algo como imparcial. Eu queria usar um estimador condicional de densidade do kernel, mas percebi que precisaria quantizar o primeiro. Então tive a ideia de estimar e partir dos dados e usá-lo para calcular , ou talvez eu o tenha lido em algum lugar e não lembro onde.f(A|X)AXf^(A|X)Xf^(A,X)f^(X)f^(A|X)

Existe uma razão para esse procedimento não ser válido? Existe uma abordagem melhor ou mais honesta do que a densidade do kernel? Além disso, existe um problema em estimar densidades populacionais a partir de densidades amostrais não parametricamente? Os dados são dados de pesquisa e eu tenho pesos de pesquisa; devo incorporá-los de alguma forma?


A versão específica do caso:

Provavelmente, vale a pena mencionar que vou usar essas estimativas para pesos inversos de probabilidade de tratamento em um modelo estrutural marginal, como em Robins (2000) ( PDF sem porta ). Observo uma sequência de "tratamentos" e uma sequência de fatores de confusão que variam no tempo com relação a alguns resultado que ocorre em . Eu propus uma hipótese de uma relação causal paramétrica simples, , mas como existe um fator de confusão variando no tempo{at}t=04{xt}t=04y~t=T+1E[Y~|a]=βaβé uma estimativa tendenciosa do "efeito médio do tratamento", e o fator de confusão não pode ser adicionado como um regressor, porque está no caminho causal e isso também irá influenciar . Felizmente, Doc Robins descobriu que posso obter estimativas imparciais / infundadas e razoavelmente eficientes se ponderar novamente minhas observações: β

wi=s=04f(as|as<t)f(as|as<t,xs<t)

Minha pergunta: Essa sequência de pesos é realmente o que eu preciso de uma estimativa. Robins recomenda regressão logística. Mas está em , é medido em e, para todos os fins práticos, está em um subconjunto finito do mesmo. fica em um intervalo fechado, mas apenas porque é realmente a média de algumas variáveis, cada uma medida em um subconjunto finito de .at[0,)7{0,}7xt{0,,12}

Então, eu tive algumas idéias:

  1. Estimado e não parametricamentef(at,as<t,xs<t)f(x,as<t)
  2. Estime com regressão beta não parametricamentef(at|as<t,xs<t)f(xs<t,as<t)
  3. Estime com regressão beta, e estime ) "encadeando" regressões beta de volta no tempo para expressar a coisa toda como condicional.f(xt1|at,as<t,xs<(t1))f(at,as<t,xs<(t1))
  4. Algo realmente coerente e honesto na propagação da incerteza, no qual eu obviamente não pensei.
  5. Bayes? Conheço Stan e JAGS, mas o MCMC provavelmente explodirá meu computador (não quero lidar com o EC2).

Não encontrei nenhuma dica na literatura, pois tratamentos multivariados são raros na modelagem causal. O que devo fazer?

Pontos de bônus: como você se sente sobre a notação para representar vez de algo como ?as<t{as}s=0tat1

shadowtalker
fonte

Respostas:

10

A ideia básica

De acordo com Chen, Linton e Robinson (2001) , a técnica "padrão" para estimativa de densidade de núcleo univariada condicional é encontrar, para as larguras de banda , a,b,c

f^ab(y,z)f^c(z)=f^abc(y|z)

Então, com a largura de banda do numerador e a largura de banda do denominador e , o resultado do limite central a seguir se mantém sob certas premissas de independência e consistência (que são realmente realmente restritivas quando ): (a,b)ca=b=cy=xt,z=xt1

na2(f^abc=aaa(y|z)f(y|z))dN(0,V)

onde

V^=(K(u)2du)2f^aaa(y|z)f^a(z)=(K(u)2du)2f^aa(y,z)

Embora eu nunca tenha visto um modelo com ponderação freqüente (mesmo WLS de estatísticas introdutórias), tente explicar a variação dos pesos estimados. Por enquanto, seguirei essa convenção, mas se obtiver resultados aqui, verificarei se posso trabalhar em um modelo totalmente bayesiano que propague a incerteza com mais honestidade. Então, sim, estimar a densidade condicional estimando as densidades conjunta e marginal é um procedimento padrão.

Aplicabilidade ao meu caso

Não está explicitamente claro nesse artigo como isso se generaliza quando e e . Mas acho que isso é exatamente a mesma coisa que uma grande sequência longa que parece perfeitamente administrável de acordo com Robinson (1983) (citado em Chen et al.). Novamente, usar a regra de Bayes para estimar a densidade condicional parece perfeitamente aceitável. z = ( x s ) t - 1 s = 1 x s = ( x s , 1x s , D )y=xtz=(xs)s=1t1xs=(xs,1xs,D)x=((xs,d)d=1D)s=1t1

Largura de banda

A questão final é a seleção de largura de banda. A largura de banda agora é uma matriz de bloco do formato

B=(Bnumerator00Bdenominator)=((a1,1B1numB2numat,D)00(c1,1B1denomB2denomct1,D))

o que é uma bagunça. Quando a largura de banda tal que , então , mas esse resultado se aplica separadamente a e vez de para como um todo ( fonte , notas de aula de alguém).H=hH0|H0|=1bN4+DBnumBdenomB

Chen e cols. Encontram uma largura de banda ideal (no caso 2-d) para um determinado nível de que parece generalizado para o caso em que e são multivariados. Eles sugerem definir onde é a média teórica que seria induzida sob normalidade da articulação e derivam .a=b=czyzz=μμa^(μ)

Uma versão mais geral do mesmo resultado está em outra seção dessas notas de aula, denominada largura de banda "regra de ouro". Eles também obtêm uma largura de banda ideal em função de um procedimento geral de validação cruzada.

Computação

Eu tenho um tratamento 7-dimensional ao longo de 3 períodos de tempo, então tenho uma densidade de 21 dimensões para estimar. E eu esqueci as covariáveis ​​da linha de base. Eu tenho algo como 30 covariáveis ​​de linha de base, então acabaria tentando estimar uma distribuição 51-dimensional, uma distribuição 44-dimensional e uma distribuição 37-dimensional. E isso sem mencionar que a dimensionalidade extrema exigirá uma amostra impossivelmente grande. Scott & Wand (1991) relatam que um tamanho de amostra de 50 em uma dimensão é equivalente a mais de 1 milhão em 8 dimensões ... nenhuma menção a 30. Nenhuma quantidade delas pode expressar como me sinto agora.

Conclusão

Então perdi uma semana da minha vida nisso. Ah bem. Em vez disso, vou usar o MCMC para ajustar o tratamento paramétrico e os modelos de resultados simultaneamente, para que os pesos do IPT acabem sendo uma função das densidades preditivas posteriores do modelo de tratamento. Depois, passo pelas formas linear, quadrática e cúbica para o modelo de tratamento e ver qual delas se encaixa melhor.

shadowtalker
fonte
6
"Então perdi uma semana da minha vida nisso." Isso se chama aprendizado e pesquisa. Sendo um estudante de mestrado, você deve abraçar isso, porque há mais coisas assim chegando. Geralmente, não há atalhos na pesquisa, porque muitas vezes ninguém sabe o caminho!
Momo