Como executar um teste de autoinicialização para comparar as médias de duas amostras?

Eu tenho duas amostras muito distorcidas e estou tentando usar o bootstrap para comparar suas médias usando a estatística t.

Qual é o procedimento correto para fazer isso?

O processo que estou usando

Estou preocupado com a adequação do uso do erro padrão dos dados originais / observados na etapa final, quando sei que isso normalmente não é distribuído.

Aqui estão os meus passos:

Bootstrap - amostra aleatória com substituição (N = 1000)
Calcule a estatística t para cada autoinicialização para criar uma distribuição : $T (b) = \frac{({\bar{X}}_{b 1} - {\bar{X}}_{b 2}) - ({\bar{X}}_{1} - {\bar{X}}_{2})}{\sqrt{σ_{x b 1}^{2} / n + σ_{x b 2}^{2} / n}}$ $T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }}$
Estime os intervalos de confiança t obtendo os percentis e da distribuição t $\alpha/2$ $1-\alpha/2$
Obtenha intervalos de confiança através de:

onde
$C {Eu}_{eu} = ({\bar{X}}_{1} - {\bar{X}}_{2}) - T_C {Eu}_{eu} . S E_{o r Eu g Eu n uma eu}$ $CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original}$ $C {Eu}_{você} = ({\bar{X}}_{1} - {\bar{X}}_{2}) + T_C {Eu}_{você} . S E_{o r Eu g Eu n uma eu}$ $CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original}$ $S E = \sqrt{σ_{X 1}^{2} / n + σ_{X 2}^{2} / n}$ $SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n }$
Veja onde os intervalos de confiança caem para determinar se há uma diferença significativa nas médias (ou seja, diferente de zero)

Também observei a soma das classificações de Wilcoxon, mas ela não está dando resultados muito razoáveis devido à distribuição muito distorcida (por exemplo, o 75º == 95º percentil). Por esse motivo, gostaria de explorar ainda mais o teste t com bootstrap.

Então, minhas perguntas são:

Essa é uma metodologia apropriada?
É apropriado usar o SE dos dados observados quando eu sei que eles estão fortemente distorcidos?

Possível duplicata: Que método é preferido, um teste de inicialização ou um teste não paramétrico baseado em classificação?

hypothesis-testing t-test bootstrap CatsLoveJazz
fonte

Qual o tamanho das amostras?

Michael M

@Michael Mayer Around 800

CatsLoveJazz

Veja também stats.stackexchange.com/questions/189587

ameba diz Reinstate Monica

Respostas:

Eu apenas faria um teste regular de autoinicialização:

calcule a estatística t em seus dados e armazene-a
altere os dados para que a hipótese nula seja verdadeira. Nesse caso, subtraia a média no grupo 1 para o grupo 1 e adicione a média geral e faça o mesmo no grupo 2, para que as médias em ambos os grupos sejam a média geral.
Colete amostras de autoinicialização deste conjunto de dados, provavelmente da ordem de 20.000.
calcule a estatística t em cada uma dessas amostras de inicialização. A distribuição dessas estatísticas t é a estimativa de autoinicialização da distribuição amostral da estatística t em seus dados distorcidos, se a hipótese nula for verdadeira.
$p$ $($ $+1)$ $($ $+1)$

Você pode ler mais sobre isso em:

Capítulo 4 de Métodos de Bootstrap de AC Davison e DV Hinkley (1997) e sua aplicação . Cambridge: Cambridge University Press.
Capítulo 16 de Bradley Efron e Robert J. Tibshirani (1993) Uma Introdução ao Bootstrap . Boca Raton: Chapman & Hall / CRC.
Entrada da Wikipedia no teste de hipótese de autoinicialização.

Maarten Buis
fonte

Isto é essencialmente o que estou fazendo, mas observando a proporção de vezes que a estatística t original / observada é> = estatística t com botas. Não há problema em fazer um teste t em dados muito assimétricos em primeira instância, porém, esse é um dos motivos pelos quais eu quero boostrap.

CatsLoveJazz

Tecnicamente, para o teste de autoinicialização, você só precisa de uma estatística de teste, para que isso não seja um problema. Substancialmente, um teste t compara médias e, em medianas de dados assimétricas, muitas vezes são mais significativas do que médias. Portanto, um teste comparando medianas em vez de médias pode fazer mais sentido. No entanto, isso depende da sua hipótese nula, que é a sua escolha e somente sua.

Maarten Buis 04/04

Ok, obrigado, é o meio que queremos testar, já que todos os nossos outros resultados estão neste formulário.

CatsLoveJazz