Gostaria de entender o uso da simulação de Monte Carlo na chisq.test()
função em R.
Eu tenho uma variável qualitativa que tem 128 níveis / classes. O tamanho da minha amostra é 26 (não pude provar mais "indivíduos"). Então, obviamente, terei alguns níveis com 0 "indivíduos". Mas o fato é que eu tenho apenas um número muito pequeno de classes representadas das 127 possíveis. Como ouvi dizer que, para aplicar o teste do qui-quadrado, deveríamos ter pelo menos 5 indivíduos em cada nível (não entendo completamente o motivo), pensei em usar a simulate.p.value
opção de usar a simulação de Monte Carlo para estimar a distribuição e calcule um valor-p. Sem a simulação de Monte Carlo, R me dá um valor-p < 1e-16
. Com a simulação de Monte Carlo, isso me dá um valor-p em 4e-5
.
Tentei calcular o valor-p com um vetor de 26 uns e 101 zeros, e com a simulação de Monte-Carlo, recebo um valor-p em 1.
É correto afirmar que, mesmo que o tamanho da minha amostra seja pequeno comparado ao número de classes possíveis, a distribuição observada é tal que é muito improvável que todas as classes possíveis existam com a mesma probabilidade (1/127) na população real ?
fonte
Respostas:
Ao pesquisar, parece que o objetivo da Simulação de Monte Carlo é produzir uma distribuição de referência, com base em amostras geradas aleatoriamente que terão o mesmo tamanho da amostra testada, para calcular valores de p quando as condições de teste não forem satisfeitas.
Isso é explicado na Hope A. J. Royal Stat Society Série B (1968), que pode ser encontrada no JSTOR .
Aqui está uma citação relevante do documento Hope:
fonte