Tamanho da amostra em relação à previsão na classificação e regressão

8

No que diz respeito ao teste de hipóteses, a estimativa do tamanho das amostras é feita através de energia, e é intuitivo que aumentar o mesmo tamanho aumenta a precisão dos efeitos estimados. Mas e quanto à previsão para classificação e regressão? Quais aspectos do problema de previsão são influenciados pelo tamanho da amostra, além da estimativa do erro de generalização ou RMSE para regressão.

Em suma, as propriedades que contribuem para o poder na configuração de teste de hipótese diferem daquelas que permitem a previsão bem-sucedida por meio de regressão penalizada / mineração de dados / modelagem algorítmica. Como o tamanho da amostra influencia o sucesso dessas técnicas?

Um artigo que descreve essa idéia é esse .

Alguém pode fornecer referências para seus comentários? Obrigado.

julieth
fonte
2
Não é realmente claro o que você procura aqui, pelo menos isso é lição de casa? Uma coisa que não está nas fórmulas é que conjuntos de dados realmente grandes podem trazer problemas maiores de heterogeneidade, qualidade dos dados e valores ausentes. Os argumentos são visíveis nas discussões sobre os méritos relativos dos censos nacionais, em comparação com pesquisas amostrais mais rigorosamente controladas.
Nick Cox
1
Eu adicionei alguns detalhes. Esteve fora da escola por anos, então não há lição de casa!
julieth
"problemas maiores de heterogeneidade, qualidade dos dados e valores ausentes": se o conjunto pequeno de dados é mais homogêneo, a generalização (extrapolação para as situações cobertas pelo conjunto grande de dados) é questionável / ruim. Em outras palavras: você pode se ajustar demais ao pequeno conjunto de dados. (A menos que big implique uma qualidade de troca e de sinal [
errado
Existem algumas medidas a serem consideradas, incluindo erro, generalização, parcimônia, operações de computação necessárias e tamanho de memória necessário. Quando olho para isso, vejo dois valores familiares: desempenho e custo. Generalização, forma e erro são sobre desempenho pós-ajuste. Eles são a recompensa. Tempo de computação, complexidade do código, tamanho da memória são o quão difícil é codificar, depurar e executar os dados através do modelo. Eles são sobre o custo. Ao pensar em "influência", toda influência leva a essas duas medidas, ou ela não existe.
EngrStudent

Respostas:

1

Basicamente, acho que você pergunta intuitivamente como o tamanho da amostra afeta as técnicas de aprendizado de máquina. Portanto, o fator real que afeta os tamanhos de amostra necessários é a dimensionalidade do espaço em que os dados residem e a sua escassez. Vou dar dois exemplos, porque acho difícil resumir tudo em um ...

  • nn

  • Digamos que você tenha alguns dados esparsos, ou seja, a maioria das dimensões são zeros. Um exemplo é o texto, como tweets ou SMS (esqueça os livros por enquanto), em que a frequência de cada palavra é uma dimensão e, é claro, os documentos não possuem a maioria das palavras no dicionário (espaço escasso). Você tenta classificar os tweets com base no tópico deles. Algoritmos, como kNN, SVMs etc., funcionam com semelhanças entre amostras, por exemplo, 1-NN encontrará o tweet no conjunto de treinamento mais próximo do que você tenta classificar e atribuirá o rótulo correspondente. No entanto, por causa da escassez ... adivinhem ... a maioria das semelhanças é zero! Simplesmente porque os documentos não compartilham palavras suficientes. Para poder fazer previsões, você precisa de dados suficientes para que algo em seu conjunto de treinamento se assemelhe aos documentos desconhecidos que você tenta classificar.

iliasfl
fonte
0

Eu não entendo a pergunta completamente. Geralmente uma amostra maior produzirá (por exemplo) uma melhor classificação. A menos que maior signifique observações de má qualidade. Uma pequena amostra tornará muitos modelos inúteis. Por exemplo, como os modelos baseados em árvore são uma espécie de abordagem de "divisão e conquista", sua eficiência depende muito do tamanho da amostra de treinamento.

Por outro lado, se você está interessado em aprender estatística em grandes dimensões, acho que sua preocupação tem mais a ver com a maldição da dimensionalidade. Se o tamanho da amostra for "pequeno" e o espaço de recursos for de uma dimensão "alta", seus dados se comportarão como se fossem escassos e a maioria dos algoritmos passará um tempo terrível tentando entendê-los. Citando John A. Richards em Análise de Imagem Digital de Sensoriamento Remoto:

Redução e Separabilidade de Recursos

O custo da classificação aumenta com o número de recursos usados ​​para descrever vetores de pixel no espaço multiespectral - isto é, com o número de bandas espectrais associadas a um pixel. Para classificadores como os procedimentos de distância mínima e paralelepípedo, esse é um aumento linear com os recursos; no entanto, para a classificação de máxima verossimilhança, o procedimento mais frequentemente preferido, o aumento de custo com recursos é quadrático. Portanto, é sensato economicamente garantir que não sejam utilizados mais recursos do que o necessário ao executar uma classificação. A Seção 8.2.6 chama a atenção para o número de pixels de treinamento necessários para garantir que estimativas confiáveis ​​de signatários de classe possam ser obtidas. Em particular, o número de pixels de treinamento necessários aumenta com o número de bandas ou canais nos dados. Para dados de alta dimensionalidade, como o dos espectrômetros de imagem, esse requisito apresenta um grande desafio na prática; portanto, é importante manter o número de recursos usados ​​em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis ​​a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. portanto, é importante manter o número de recursos usados ​​em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis ​​a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. portanto, é importante manter o número de recursos usados ​​em uma classificação o mínimo possível, para que sejam esperados resultados confiáveis ​​a partir de números acessíveis de pixels de treinamento. Características que não ajudam na discriminação, contribuindo pouco para a separabilidade de classes espectrais, devem ser descartadas. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. deve ser descartado. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo. deve ser descartado. A remoção de recursos menos eficazes é chamada de seleção de recursos, sendo esta uma forma de redução de recursos. A outra é transformar o vetor de pixel em um novo conjunto de coordenadas, no qual os recursos que podem ser removidos ficam mais evidentes. Ambos os procedimentos são considerados com alguns detalhes neste capítulo.

O que significa que o problema é duplo, encontrando recursos relevantes e o tamanho do samp que você mencionou. A partir de agora, você pode baixar o livro gratuitamente, se o pesquisar no google.

Outra maneira de ler sua pergunta que me interessa particularmente seria a seguinte: no aprendizado supervisionado, você só pode realmente validar seus modelos nos dados de teste por validação cruzada e quais não. Se a amostra rotulada da qual você obteve suas amostras de trem / teste não representa bem o seu universo, os resultados da validação podem não se aplicar ao seu universo. Como você pode medir a representatividade da sua amostra rotulada?

JEquihua
fonte
estratos é uma boa maneira de medir a representatividade. Incluí-los em um modelo misto com variação estimada pelo REML é uma boa maneira de incorporar incertezas sobre estratos ausentes em suas previsões.
probabilityislogic
Totalmente fora do tópico, você pode recomendar alguma bibliografia sobre Edwin Jaynes e "probabilidade como lógica estendida"? Saudações!
JEquihua 25/05
este site é um bom lugar para começar
probabilityislogic