No que diz respeito ao teste de hipóteses, a estimativa do tamanho das amostras é feita através de energia, e é intuitivo que aumentar o mesmo tamanho aumenta a precisão dos efeitos estimados. Mas e quanto à previsão para classificação e regressão? Quais aspectos do problema de previsão são influenciados pelo tamanho da amostra, além da estimativa do erro de generalização ou RMSE para regressão.
Em suma, as propriedades que contribuem para o poder na configuração de teste de hipótese diferem daquelas que permitem a previsão bem-sucedida por meio de regressão penalizada / mineração de dados / modelagem algorítmica. Como o tamanho da amostra influencia o sucesso dessas técnicas?
Um artigo que descreve essa idéia é esse .
Alguém pode fornecer referências para seus comentários? Obrigado.
fonte
Respostas:
Basicamente, acho que você pergunta intuitivamente como o tamanho da amostra afeta as técnicas de aprendizado de máquina. Portanto, o fator real que afeta os tamanhos de amostra necessários é a dimensionalidade do espaço em que os dados residem e a sua escassez. Vou dar dois exemplos, porque acho difícil resumir tudo em um ...
Digamos que você tenha alguns dados esparsos, ou seja, a maioria das dimensões são zeros. Um exemplo é o texto, como tweets ou SMS (esqueça os livros por enquanto), em que a frequência de cada palavra é uma dimensão e, é claro, os documentos não possuem a maioria das palavras no dicionário (espaço escasso). Você tenta classificar os tweets com base no tópico deles. Algoritmos, como kNN, SVMs etc., funcionam com semelhanças entre amostras, por exemplo, 1-NN encontrará o tweet no conjunto de treinamento mais próximo do que você tenta classificar e atribuirá o rótulo correspondente. No entanto, por causa da escassez ... adivinhem ... a maioria das semelhanças é zero! Simplesmente porque os documentos não compartilham palavras suficientes. Para poder fazer previsões, você precisa de dados suficientes para que algo em seu conjunto de treinamento se assemelhe aos documentos desconhecidos que você tenta classificar.
fonte
Eu não entendo a pergunta completamente. Geralmente uma amostra maior produzirá (por exemplo) uma melhor classificação. A menos que maior signifique observações de má qualidade. Uma pequena amostra tornará muitos modelos inúteis. Por exemplo, como os modelos baseados em árvore são uma espécie de abordagem de "divisão e conquista", sua eficiência depende muito do tamanho da amostra de treinamento.
Por outro lado, se você está interessado em aprender estatística em grandes dimensões, acho que sua preocupação tem mais a ver com a maldição da dimensionalidade. Se o tamanho da amostra for "pequeno" e o espaço de recursos for de uma dimensão "alta", seus dados se comportarão como se fossem escassos e a maioria dos algoritmos passará um tempo terrível tentando entendê-los. Citando John A. Richards em Análise de Imagem Digital de Sensoriamento Remoto:
O que significa que o problema é duplo, encontrando recursos relevantes e o tamanho do samp que você mencionou. A partir de agora, você pode baixar o livro gratuitamente, se o pesquisar no google.
Outra maneira de ler sua pergunta que me interessa particularmente seria a seguinte: no aprendizado supervisionado, você só pode realmente validar seus modelos nos dados de teste por validação cruzada e quais não. Se a amostra rotulada da qual você obteve suas amostras de trem / teste não representa bem o seu universo, os resultados da validação podem não se aplicar ao seu universo. Como você pode medir a representatividade da sua amostra rotulada?
fonte