Se você não deseja analisar todo o conjunto de dados, provavelmente não pode usar amostragem estratificada , então sugiro coletar uma amostra aleatória grande e simples . Ao coletar uma amostra aleatória , você garante que a amostra será, em média, representativa de todo o conjunto de dados, e as medidas estatísticas padrão de precisão, como erros padrão e intervalos de confiança, informarão a que distância os valores da população são prováveis em suas estimativas de amostra. portanto, não há necessidade real de validar que uma amostra é representativa da população, a menos que você tenha algumas preocupações que foram realmente amostradas aleatoriamente.
Qual o tamanho de uma amostra aleatória simples? Bem, quanto maior a amostra, mais precisas serão suas estimativas. Como você já possui os dados, os cálculos convencionais de tamanho de amostra não são realmente aplicáveis - você pode usar o máximo de seu conjunto de dados quanto possível para a computação. A menos que você esteja planejando fazer algumas análises complexas que tornarão o tempo de computação um problema, uma abordagem simples seria tornar a amostra aleatória simples tão grande quanto puder ser analisada no seu PC sem levar à paginaçãoou outros problemas de memória. Uma regra prática para limitar o tamanho do conjunto de dados a não mais da metade da RAM do computador, para ter espaço para manipulá-lo e deixar espaço para o sistema operacional e talvez alguns outros aplicativos menores (como um editor e um navegador da web) ) Outra limitação é que os sistemas operacionais Windows de 32 bits não permitem que o espaço de endereço de um único aplicativo seja maior que bytes = 2,1 GB, portanto, se você estiver usando o Windows de 32 bits, 1 GB poderá ser um limite razoável no tamanho de um conjunto de dados.231
É então uma questão de uma aritmética simples calcular quantas observações você pode amostrar, considerando quantas variáveis você possui para cada observação e quantos bytes cada variável ocupa.
Em sua segunda pergunta, você pode perguntar: "como os dados foram inseridos?" Se você acha que os dados foram inseridos de maneira relativamente arbitrária (ou seja, independente de quaisquer características observáveis ou não observáveis de suas observações que possam influenciar sua análise final usando os dados), considere os 5 milhões, digamos, ou no entanto com quem você se sente à vontade para trabalhar, como representante da amostra completa e seleciona aleatoriamente desse grupo para criar uma amostra com a qual possa trabalhar.
Para comparar duas distribuições empíricas, é possível usar qq-plot e o teste não paramétrico de Kolmogorov – Smirnov de duas amostras para diferenças nas distribuições (consulte, por exemplo, aqui: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Nesse caso, você testaria a distribuição de cada variável em sua amostra contra a distribuição dessa variável em seu conjunto de dados "completo" (novamente, podem ser apenas 5 milhões de observações de sua amostra completa). O teste KS pode sofrer com baixa potência (ou seja, é difícil rejeitar a hipótese nula de não haver diferença entre os grupos), mas, com tantas observações, você deve ficar bem.
fonte