Obtenção e interpretação de intervalos de confiança com inicialização de dados hierárquicos

Estou interessado em obter um intervalo de confiança de inicialização na quantidade X, quando essa quantidade é medida 10 vezes em cada um dos 10 indivíduos.

Uma abordagem é obter a média por indivíduo e depois inicializar os meios (por exemplo, reamostrar os meios com substituição).

Outra abordagem é fazer o seguinte em cada iteração do procedimento de bootstrap: dentro de cada indivíduo, resample as 10 observações desse indivíduo com substituição, depois calcule uma nova média para esse indivíduo e, finalmente, calcule uma nova média de grupo. Nesta abordagem, cada indivíduo observado no conjunto de dados original sempre contribui para a média do grupo em cada iteração do procedimento de autoinicialização.

Finalmente, uma terceira abordagem é combinar as duas abordagens acima: reamostrar indivíduos e depois reamostrar dentro desses indivíduos. Essa abordagem difere da abordagem anterior, pois permite que o mesmo indivíduo contribua multiplicando-se para a média do grupo em cada iteração, embora, como cada contribuição seja gerada por meio de um procedimento de reamostragem independente, é esperado que essas contribuições variem ligeiramente uma da outra.

Na prática, acho que essas abordagens produzem estimativas diferentes para o intervalo de confiança (por exemplo, com um conjunto de dados, acho que a terceira abordagem gera intervalos de confiança muito maiores do que as duas primeiras), então estou curioso para saber o que cada uma pode ser interpretado para representar.

confidence-interval bootstrap Mike Lawrence
fonte

Respostas:

Sua primeira abordagem é sobre um intervalo entre CIs. Se você deseja medir dentro de S, essa é a abordagem errada.

A segunda abordagem geraria um ICS interno que se aplicaria apenas a esses 10 indivíduos.

A última abordagem é a correta para o S CI interno. Quaisquer aumentos no IC devem-se ao fato de o seu IC ser mais representativo de um IC que poderia ser aplicado à população em vez desses 10 S.

John
fonte

De acordo com Davison e Hinckley ("Métodos de inicialização e sua aplicação", 1997, Seção 3.8), o terceiro algoritmo é conservador. Eles defendem uma quarta abordagem: simplesmente reamostrar os assuntos.

Andrew Robinson
fonte

Interessante, vou ter que procurar essa referência. Tem certeza de que quer dizer "quarta" abordagem? A primeira abordagem que listo parece descrever "simplesmente reamostrar os assuntos".

Mike Lawrence

Sim, mas descreve a reamostragem dos meios de assunto. D&H defende a reamostragem dos sujeitos e a adaptação ao modelo original.

Andrew Robinson

Você também pode gostar de ver os publicados recentemente: Ren, Shiquan, Lai, Hong, Tong, Wenjing, Aminzadeh, Mostafa, Hou, Xuezhang e Lai, Shenghan (2010) 'Bootstrapping não paramétrico para dados hierárquicos', Journal of Applied Statistics, 37: 9, 1487-1498

Andrew Robinson

@ Mike: reamostrar todo o clsuter é o que os estatísticos da pesquisa fazem em seus bootstraps. Esse é realmente um procedimento diferente que seria equivalente à sua "primeira" abordagem se (i) você estiver apenas estimando a média e (ii) os dados não forem ponderados e equilibrados. Veja também citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .

Stask