Qual método está simulando pvalues ​​a partir da nova amostragem dos dados

8

Há um tempo atrás, fiz uma pergunta sobre a correlação dos tempos entre os carimbos de data e hora e recebi uma resposta de Peter Ellis que dizia que eu podia calcular as distâncias médias entre os códigos ...

Isso já lhe dará uma noção de quais comportamentos estão agrupados, mas você também deve verificar se isso não é plausível devido apenas ao acaso.

Para verificar isso, eu criaria dados simulados gerados por um modelo sob a hipótese nula de nenhuma relação. Isso exigiria a geração de dados para o tempo de cada comportamento a partir de um modelo nulo plausível, provavelmente com base na reamostragem dos tempos entre cada evento (por exemplo, entre cada bocejo) para criar um novo conjunto de carimbos de hora para eventos hipotéticos de modelo nulo. Em seguida, calcule a mesma estatística do indicador para este modelo nulo e compare com o indicador dos seus dados originais. Repetindo essa simulação várias vezes, você pode descobrir se o indicador de seus dados é suficientemente diferente dos dados simulados do modelo nulo (tempo médio menor de cada bocejo até o trecho mais próximo, por exemplo) para contar como evidência estatisticamente significativa contra sua hipótese nula.

Finalmente possuo o conjunto de habilidades para fazer isso e o fiz em R, mas não sei como esse método ou técnica é chamado para que eu possa (a) aprender mais sobre ele (b) falar de maneira inteligente sobre a teoria por trás do que eu 'estou fazendo.

Algumas pessoas sugeriram que isso seja chamado de teste de permutação, outras dizem que é semelhante, mas não o mesmo, ao bootstrapping, e algumas me disseram que isso está relacionado à re-amostragem de Monte Carlo.

Como é chamado esse método de reamostragem, dado que NULL é TRUE? Se você tem uma ou duas referências para fazer backup de sua resposta, isso pode ser útil, mas não necessário.

Tyler Rinker
fonte

Respostas:

4

Parece-me que Ellis poderia estar se referindo a até três idéias distintas aqui. Primeiro, ele diz algo sobre a criação de "dados simulados gerados por um modelo sob a hipótese nula de nenhuma relação". Eu chamaria isso de uma forma de inicialização paramétrica . Em seguida, ele diz que isso "provavelmente se baseará na nova amostragem dos tempos entre cada evento (por exemplo, entre cada bocejo) para criar um novo conjunto de carimbos de data / hora para eventos hipotéticos de modelo nulo". O que, vamos deixar claro aqui, fazer isso não é "criar dados simulados". Em vez disso, se entendermos corretamente, reamostraremos os dados realmente observados. Este último procedimento é um teste de permutação ou inicialização não paramétrica ,

Acho que devo dizer mais algumas palavras sobre bootstrapping paramétrico, testes de permutação e bootstrapping não paramétrico.

μ1μ2σrnorm()Rμ1=μ2

Um teste de permutação, por outro lado, envolve embaralhar os dados observados repetidamente de uma maneira que seja consistente com a hipótese nula. Assim, por exemplo, se a hipótese nula implica que a atribuição de grupo não faz diferença em termos da média do grupo, você pode aleatoriamente embaralhar os rótulos do grupo entre todas as suas observações muitas vezes e ver quais diferenças médias você obteria para todas as formas possíveis de embaralhar nesse caminho. E então você veria onde, dentro da distribuição das estatísticas de teste calculadas a partir desses conjuntos de dados embaralhados, está a estatística real observada. Observe que existe um número finito (mas geralmente grande) de maneiras pelas quais você pode embaralhar os dados realmente observados.

Finalmente, o bootstrapping não paramétrico é muito semelhante ao teste de permutação, mas reamostramos os dados observados com substituiçãopara tentar nos aproximar de uma "população" infinita de valores dos quais nossos dados podem ter sido extraídos. Existem muitas, muito mais maneiras de reamostrar seus dados com substituição do que embaralhar seus dados (embora também seja tecnicamente finito na prática). Novamente, semelhante ao bootstrapping paramétrico, isso geralmente é feito não sob a hipótese nula, mas sob o modelo implícito nos dados observados, produzindo intervalos de confiança em torno das estatísticas de teste observadas, não nos valores de p. Mas certamente poderia-se imaginar fazendo isso sob a hipótese nula, como Ellis sugere, e obtendo valores-p dessa maneira. Como um exemplo de inicialização não paramétrica aqui (da maneira tradicional, isto é, nãosob a hipótese nula) usando o mesmo exemplo de diferença de grupo que usei no parágrafo paramétrico de bootstrapping, para fazer isso, faríamos uma nova amostra com a substituição das observações dentro de cada grupo muitas vezes, mas sem misturar as observações entre os grupos (ao contrário da permutação teste) e construa a distribuição amostral das diferenças médias de grupo que obtemos dessa maneira.

Jake Westfall
fonte