Existe um conceito de dados "suficientes" para o treinamento de modelos estatísticos?

10

Eu trabalho com bastante modelagem estatística, como Hidden Markov Models e Gaussian Mixture Models. Vejo que o treinamento de bons modelos em cada um desses casos requer uma grande quantidade (> 20.000 frases para HMMs) de dados que são obtidos de ambientes semelhantes ao uso final. Minha pergunta é:

  1. Existe um conceito de dados de treinamento "suficientes" na literatura? Quantos dados de treinamento são "bons o suficiente"?
  2. Como posso calcular quantas frases são necessárias para que os modelos "bons" (que oferecem uma boa precisão de reconhecimento (> 80%)) sejam treinados?
  3. Como sei se um modelo foi treinado corretamente? Os coeficientes no modelo começarão a exibir flutuações aleatórias? Em caso afirmativo, como faço para distinguir flutuações aleatórias e alterações reais devido à atualização do modelo?

Por favor, sinta-se à vontade para refazer esta pergunta caso precise de mais tags.

Sriram
fonte

Respostas:

10

Você pode dividir seu conjunto de dados em subconjuntos consecutivos com 10%, 20%, 30%, ..., 100% de seus dados e, para cada subconjunto, estimar a variação da precisão do estimador usando validação cruzada k-fold ou bootstrap. Se você tiver dados "suficientes", a plotagem das variações deve exibir uma linha monotônica decrescente que deve atingir um platô antes de 100%: adicionar mais dados não diminui a variação da precisão do estimador de maneira significativa.

ogrisel
fonte
Vou ter que tentar isso. Soa interessante. Obrigado!
Sriram