Existe uma regra prática antiga para estatísticas multivariadas que recomenda um mínimo de 10 casos para cada variável independente. Mas geralmente é onde há um parâmetro para cada variável.
Por que estou perguntando: estou trabalhando em um exemplo de livro didático que usa 500 casos de treinamento (de 25.000 no conjunto de dados) com 15 variáveis preditoras e uma camada oculta com 8 nós ocultos. Então, estamos estimando 153 pesos. Dos 500 casos, existem 129 1 e o resto 0. portanto, há mais pesos do que casos positivos a serem previstos. Isso parece errado. O modelo resultante é super ajustado (mas a validação não é abordada neste problema do livro).
Então, o que é um guia para o mínimo? 10 vezes variáveis de entrada? 10 vezes parâmetros para estimar? Algo mais?
Existem respostas relacionadas, mas elas parecem se referir mais ao tamanho de amostra desejável do que o mínimo, por exemplo, como obter o tamanho do conjunto de dados necessário para o treinamento da rede neural?
Tamanho do lote de troca versus número de iterações para treinar uma rede neural
ou não tem resposta Tamanho mínimo da amostra de treinamento necessário para um classificador
Mas é claro que posso ter perdido uma boa resposta anterior.
fonte
number of parameters squared
amostrasRespostas:
Isso é impossível de responder em geral. Se você estiver trabalhando em um problema com recursos fortemente preditivos, sua tarefa será mais fácil - amostras menores irão estimar um modelo de alto desempenho. Mas um problema com apenas características pouco relevantes dificilmente encontrará sinal.
Em extremos , se todos os seus recursos forem puro ruído, nenhuma rede generalizará bem, mesmo se você tiver volumes arbitrariamente grandes de dados.
Regularização inteligente e seleção de recursos podem ajudar. E se a regularização e a seleção de recursos podem alterar o número de parâmetros necessários para estimar uma rede com um nível específico de desempenho, essa pergunta parece ainda mais complicada do que uma simples diretriz.
fonte
Li conselhos estatísticos clássicos para usar o número de amostras pelo menos 10 vezes mais que o número de parâmetros. Isso é vago, é claro. Se o problema for muito barulhento, você poderá exigir 100 vezes mais ou 1000 vezes mais.
Conforme mencionado pelo @Sycorax, não há uma resposta clara e concisa, mas você pode pelo menos ter em mente que ter um número de amostras igual ao número de parâmetros permitirá desenhar um hiperplano (no seu caso) que divida perfeitamente suas classes.
Dê uma olhada no conceito de dimensão Vapnik-Chervonenkis que pode ajudar a articular o problema de maneira mais formal: dimensão VC
fonte