Atualmente, estou lendo "All of Statistics", de Larry Wasserman, e intrigado com algo que ele escreveu no capítulo sobre estimativa de funções estatísticas de modelos não paramétricos.
Ele escreveu
"Às vezes, podemos encontrar o erro padrão estimado de uma função estatística fazendo alguns cálculos. No entanto, em outros casos, não é óbvio como estimar o erro padrão".
Gostaria de salientar que, no próximo capítulo, ele fala sobre o bootstrap para resolver esse problema, mas como eu realmente não entendo essa afirmação, não recebo totalmente o incentivo por trás do bootstrapping?
Que exemplo existe quando não é óbvio como estimar o erro padrão?
Todos os exemplos que eu vi até agora têm sido "óbvio" como , em seguida,
self-study
estimation
bootstrap
standard-error
Shookie
fonte
fonte
Respostas:
Duas respostas
fonte
Um exemplo pode ajudar a ilustrar. Suponha que, em um quadro de modelagem causal, você está interessado em determinar se a relação entre (uma exposição de interesse) um Y (um resultado de interesse) é mediada por uma variável W . Isso significa que nos dois modelos de regressão:X Y W
O efeito é diferente do efeito γ 1 .β1 γ1
Como exemplo, considere a relação entre tabagismo e risco cardiovascular (CV). Obviamente, fumar aumenta o risco de CV (para eventos como ataque cardíaco e derrame), fazendo com que as veias se tornem quebradiças e calcificadas. No entanto, fumar também é um inibidor de apetite. Portanto, estaríamos curiosos se a relação estimada entre tabagismo e risco CV é mediada pelo IMC, que independentemente é um fator de risco para o risco CV. Aqui pode ser um evento binário (infarto do miocárdio ou neurológico) em um modelo de regressão logística ou uma variável contínua como calcificação arterial coronariana (CAC), fração de ejeção do ventrículo esquerdo (FEVE) ou massa do ventrículo esquerdo (MVE).Y
Ajustaríamos dois modelos 1: ajustar o tabagismo e o resultado, juntamente com outros fatores de confusão, como idade, sexo, renda e histórico familiar de doença cardíaca, em seguida 2: todas as covariáveis anteriores, bem como o índice de massa corporal. A diferença no efeito de fumar entre os modelos 1 e 2 é onde baseamos nossa inferência.
Estamos interessados em testar as hipóteses
Uma medida de efeito possível pode ser: ou S = β 1 / γ 1 ou qualquer número de medições. Você pode usar os estimadores usuais para T e S . O erro padrão desses estimadores é muito complicado de derivar. A inicialização da distribuição deles, no entanto, é uma técnica comumente aplicada, e é fácil calcular o valor- p diretamente disso.T=β1−γ1 S=β1/γ1 T S p
fonte
Ter soluções paramétricas para cada medida estatística seria desejável, mas, ao mesmo tempo, bastante irrealista. O Bootstrap é útil nesses casos. O exemplo que me vem à mente diz respeito à diferença entre dois meios de distribuição de custos altamente distorcida. Nesse caso, o teste t clássico de duas amostras não atende aos seus requisitos teóricos (as distribuições das quais as amostras investigadas foram retiradas certamente se afastam da normalidade, devido à longa cauda direita) e os testes não paramétricos não são capazes de transmitir informações úteis para os tomadores de decisão (que geralmente não estão interessados nas fileiras). Uma solução possível para evitar ser interrompido nesse problema é um teste t de inicialização de duas amostras.
fonte