Como calcular um tamanho de amostra para validar a correção / incorreta de registros em uma tabela de dados?

8

Eu li as respostas existentes no CrossValidated (além de outros locais on-line) e não consigo encontrar o que estou procurando, mas, por favor, aponte-me para as fontes existentes, caso as tenha perdido.

Digamos que eu tenho um conjunto de dados de N = 1000 registros, cada um dos quais pode ser amostrado manualmente e rotulado como 'Válido' ou 'Inválido' (ou Verdadeiro / Falso, Certo / Errado, etc.).

Desejo atingir um determinado nível de confiança de que todos os registros no conjunto de dados são válidos. Como exemplo de registros, se eu encontrar um único inválido, voltarei a alterar a forma como o conjunto de dados é criado para corrigir isso e problemas semelhantes.

Portanto, depois de algumas iterações para localizar Invalids, corrigir e recriar o conjunto de dados, faço algumas amostragens que incluem apenas registros válidos. Se eu quero ter (digamos) 99% ou 95% de certeza de que todos os registros são válidos, qual o tamanho da minha amostra? (Idealmente em função de N.)

Tentei brincar com os testes hipergeométricos ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - nesse contexto, quero saber o que k deve ser, mas não tenho um valor fixo de K Em vez disso, quero escolher k de modo que K seja provavelmente igual a N - mas definir K = N obviamente resulta em uma probabilidade de 1! Também estou me perguntando se preciso usar uma abordagem bayesiana, mas não entendo as estatísticas bayesianas o suficiente.

Stuart J Cuthbertson
fonte
Também aqui e aqui .
Scortchi - Restabelecer Monica
Obrigado. Eu acho que todos os três são úteis e o terceiro (em particular) é basicamente o mesmo cenário que eu tenho. Vou ver o que posso fazer com essas respostas - a Regra dos Três parece muito útil!
Stuart J Cuthbertson
De nada. Edite sua pergunta aqui se algo não estiver claro.
Scortchi - Restabelece Monica
Você provavelmente já resolveu o problema agora: mas como a pergunta não foi encerrada como duplicada, & não é uma duplicata exata; Eu pensei que valeria a pena soletrar uma resposta.
Scortchi - Restabelece Monica

Respostas:

7

K>0K=0k=0K=1nNk

=(1

f(k)=(Kk)(NKnk)(Nn)
=N-n
=(10)(N1n0)(Nn)
=NnN=p

Portanto, o tamanho mínimo da amostra necessário para poder rejeitar a hipótese nula em um nível de significância (ou equivalente para obter um intervalo de confiança unilateral de ) é simplesmente p α = 1 - p K = 0npα=1pK=0

n = α N

n=(1p)N
n=αN

Com e , . Se isso parecer muito, considere que todos os mil registros válidos são um critério estrito; se você considerar relaxar, a mesma abordagem pode ser usada para testar, digamos .α = 0,95 n = 950 K > 9N=1000α=0,95n=950K>9

Scortchi - Restabelecer Monica
fonte
Essa é uma abordagem diferente do que eu concluí lendo os artigos vinculados (ou seja, aplicando a Regra dos Três). No entanto, faz muito sentido e é menos conservador do que a Regra 3 (que, se eu fiz minhas somas corretamente, recomenda amostrar 3000 registros para N = 1000). A conclusão geral de "estatísticas diz que você também pode verificar basicamente tudo se precisar ter essa certeza" se aplica a qualquer abordagem.
Stuart J Cuthbertson
Bem, observe que a Regra dos Três se aplica apenas aproximadamente à amostragem sem substituição de uma população finita; quando . nN
Scortchi - Restabelece Monica