Determinando o tamanho da amostra necessário para o método de inicialização / Método proposto

33

Eu sei que este é um tópico bastante quente, onde ninguém realmente pode dar uma resposta simples. No entanto, estou me perguntando se a seguinte abordagem não poderia ser útil.

O método de autoinicialização é útil apenas se sua amostra seguir mais ou menos (leia exatamente) a mesma distribuição que a população original. Para ter certeza de que esse é o caso, você precisa aumentar o tamanho da amostra. Mas o que é grande o suficiente?

Se minha premissa estiver correta, você terá o mesmo problema ao usar o teorema do limite central para determinar a média da população. Somente quando o tamanho da amostra é grande o suficiente, você pode ter certeza de que a população da sua amostra é normalmente distribuída (em torno da média da população). Em outras palavras, suas amostras precisam representar sua população (distribuição) suficientemente bem. Mas, novamente, o que é grande o suficiente?

No meu caso (processos administrativos: tempo necessário para finalizar uma demanda versus quantidade de demandas), tenho uma população com uma distribuição multimodal (todas as demandas que foram finalizadas em 2011), das quais tenho 99% de certeza de que é ainda menos normalmente distribuído que a população (todas as demandas concluídas entre os dias atuais e os dias anteriores, o ideal é que esse período seja o menor possível). Quero pesquisar.

Minha população de 2011 existe com unidades suficientes para fazer amostras de um tamanho de amostra n . Eu escolho um valor de x , suponha 10 ( x = 10 ). Agora uso tentativa e erro para determinar um bom tamanho de amostra. Eu tomo um n = 50 e ver se minha população média da amostra é normalmente distribuída usando Kolmogorov-Smirnov. Nesse caso, repito as mesmas etapas, mas com um tamanho de amostra 40 , caso contrário, repita com um tamanho de amostra 60 (etc.).xnx10x=10n=50.40.60

Depois de um tempo, concluo que é o tamanho mínimo absoluto da amostra para obter uma representação mais ou menos boa da minha população de 2011. Como conheço minha população de interesse (todas as demandas concluídas entre os dias atuais e os dias anteriores) tem menos variação, posso usar com segurança um tamanho de amostra de n = 45 para inicializar. (Indiretamente, n = 45 determina o tamanho do meu período de tempo: tempo necessário para concluir 45 demandas.)n=45n=45n=4545

x10

resposta na primeira resposta Obrigado por responder, sua resposta foi muito útil para mim, especialmente os links dos livros.
Mas tenho medo de que, na minha tentativa de fornecer informações, tenha obscurecido completamente minha pergunta. Eu sei que as amostras de bootstrap assumem a distribuição da amostra da população. Eu te sigo completamente, mas ...

Sua amostra populacional original precisa ser grande o suficiente para ter uma certeza moderada de que a distribuição da amostra populacional corresponde (é igual) à distribuição 'real' da população.

Essa é apenas uma idéia de como determinar o tamanho do tamanho da amostra original para ter certeza de que a distribuição da amostra corresponde à distribuição da população.

Suponha que você tenha uma distribuição populacional bimodal e uma parte superior seja muito maior que a outra. Se o tamanho da amostra for 5, é grande a chance de que todas as 5 unidades tenham um valor muito próximo do topo maior (a chance de anunciar aleatoriamente uma unidade é a maior). Nesse caso, sua distribuição de amostra parecerá monomodal.

Com um tamanho de amostra de cem, a chance de sua distribuição de amostra também ser bimodal é muito maior! O problema do bootstrap é que você tem apenas uma amostra (e você desenvolve mais nessa amostra). Se a distribuição da amostra realmente não corresponder à distribuição da população, você está com problemas. Essa é apenas uma idéia para ter a chance de ter uma "má distribuição da amostra" o mais baixa possível, sem precisar aumentar infinitamente o tamanho da amostra.

siegfried
fonte

Respostas:

38

Interessei-me por essa pergunta porque vi a palavra bootstrap e escrevi livros sobre o bootstrap. As pessoas também perguntam "Quantas amostras de inicialização preciso para obter uma boa aproximação de Monte Carlo ao resultado da inicialização?" Minha resposta sugerida para essa pergunta é continuar aumentando o tamanho até obter convergência. Nenhum número serve para todos os problemas.

nnnda amostra original. A manutenção ou não do princípio do bootstrap não depende de nenhuma amostra individual "parecendo representativa da população". O que depende disso é o que você está estimando e algumas propriedades da distribuição da população (por exemplo, isso funciona para amostragem significa com distribuições da população que têm variações finitas, mas não quando elas têm variações infinitas). Não funcionará para estimar extremos, independentemente da distribuição da população.

A teoria do bootstrap envolve mostrar consistência da estimativa. Portanto, pode ser demonstrado em teoria que funciona para amostras grandes. Mas também pode funcionar em pequenas amostras. Eu já vi isso funcionar para a estimativa da taxa de erro de classificação particularmente bem em amostras pequenas como 20 para dados bivariados.

Agora, se o tamanho da amostra for muito pequeno - digamos 4 -, o bootstrap pode não funcionar apenas porque o conjunto de possíveis exemplos de bootstrap não é rico o suficiente. No meu livro ou no livro de Peter Hall, é discutido este número de amostra pequena demais. Mas esse número de amostras distintas de bootstrap aumenta muito rapidamente. Portanto, isso não é um problema, mesmo para tamanhos de amostra tão pequenos quanto 8. Você pode dar uma olhada nessas referências:

Michael R. Chernick
fonte
3
Existe algum teste padrão a ser executado para verificar se (por exemplo, 4 amostras) não é suficiente? Eu tenho um conjunto de dados em que estou calculando os intervalos de confiança de inicialização para a média, mas algumas pessoas têm muito poucos pontos de dados (<8 em alguns casos). Meu instinto me diz que devo desconsiderar indivíduos com menos de n pontos de dados, mas como definir esse ponto de corte n? Eu esperava encontrar um valor de corte geralmente aceito (análogo a como 6 ou 7 é o ponto de corte arbitrário para o número de amostras por grupo em uma análise de modelo misto).
RTbecard