Eu trabalho com bastante modelagem estatística, como Hidden Markov Models e Gaussian Mixture Models. Vejo que o treinamento de bons modelos em cada um desses casos requer uma grande quantidade (> 20.000 frases para HMMs) de dados que são obtidos de ambientes semelhantes ao uso final. Minha pergunta é:
- Existe um conceito de dados de treinamento "suficientes" na literatura? Quantos dados de treinamento são "bons o suficiente"?
- Como posso calcular quantas frases são necessárias para que os modelos "bons" (que oferecem uma boa precisão de reconhecimento (> 80%)) sejam treinados?
- Como sei se um modelo foi treinado corretamente? Os coeficientes no modelo começarão a exibir flutuações aleatórias? Em caso afirmativo, como faço para distinguir flutuações aleatórias e alterações reais devido à atualização do modelo?
Por favor, sinta-se à vontade para refazer esta pergunta caso precise de mais tags.