Qual o tamanho necessário de um conjunto de treinamento?

24

Existe um método comum usado para determinar quantas amostras de treinamento são necessárias para treinar um classificador (neste caso, uma LDA) para obter uma precisão mínima de generalização de limite?

Estou perguntando, porque gostaria de minimizar o tempo de calibração normalmente necessário em uma interface cérebro-computador.

Lunat1c
fonte
2
user2030669, a resposta @cbeleites abaixo é excelente, mas como regra geral: você precisa de pelo menos 6 vezes o número de casos (amostras) como recursos.
precisa saber é o seguinte
2
... em cada aula. Também vi recomendações de 5p e 3p / class.
Cbeleites suporta Monica

Respostas:

31

O termo de pesquisa que você procura é "curva de aprendizado", que fornece o desempenho (médio) do modelo em função do tamanho da amostra de treinamento.

As curvas de aprendizado dependem de muitas coisas, por exemplo

  • método de classificação
  • complexidade do classificador
  • quão bem as classes são separadas.

(Eu acho que, para a LDA de duas classes, você pode derivar alguns cálculos teóricos de potência, mas o fato crucial é sempre se seus dados realmente atendem à suposição "normal igual multivariada de COV normal". Eu usaria algumas simulações para ambas as LDA suposições e reamostragem dos dados já existentes).

n

  • nn=
  • n

    n

Outro aspecto que talvez você precise levar em consideração é que geralmente não é suficiente treinar um bom classificador, mas você também precisa provar que o classificador é bom (ou bom o suficiente). Portanto, você também precisa planejar o tamanho da amostra necessário para a validação com uma determinada precisão. Se você precisar fornecer esses resultados como uma fração de sucessos entre tantos casos de teste (por exemplo, precisão / precisão / sensibilidade / valor preditivo positivo do produtor ou consumidor), e a tarefa de classificação subjacente for bastante fácil, isso pode exigir casos mais independentes do que o treinamento de um bom modelo

Como regra geral, para o treinamento, o tamanho da amostra é geralmente discutido em relação à complexidade do modelo (número de casos: número de variáveis), enquanto limites absolutos no tamanho da amostra de teste podem ser dados para uma precisão necessária da medição de desempenho.

Aqui está um artigo, onde explicamos essas coisas com mais detalhes e também discutimos como construir curvas de aprendizado:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento do tamanho da amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323

Este é o "teaser", mostrando um problema fácil de classificação (na verdade, temos uma distinção fácil como essa em nosso problema de classificação, mas outras classes são muito mais difíceis de distinguir): teaser amostra tamanho papel de planejamento

Não tentamos extrapolar para tamanhos maiores de amostra de treinamento para determinar quanto mais casos de treinamento são necessários, porque os tamanhos das amostras de teste são nosso gargalo e tamanhos maiores de amostra de treinamento nos permitiriam construir modelos mais complexos, portanto a extrapolação é questionável. Para o tipo de conjunto de dados que eu tenho, eu abordaria isso iterativamente, medindo vários casos novos, mostrando o quanto as coisas melhoraram, medindo mais casos e assim por diante.

Isso pode ser diferente para você, mas o artigo contém referências da literatura a artigos que utilizam extrapolação para tamanhos de amostra mais altos para estimar o número necessário de amostras.

cbeleites suporta Monica
fonte
usar um esquema de regularização para minha LDA me permitiria trabalhar com um conjunto de treinamento menor?
precisa saber é o seguinte
11
@ user2036690, Um modelo mais parcimonioso (menos recursos) precisaria de menos amostras de treinamento. Um esquema de regularização não afetaria o número de amostras necessárias, se apenas reduziria o impacto de recursos menos importantes. Algum tipo de recurso de racionalização pode permitir que um conjunto de treinamento menor
BGreene
11
No entanto, a seleção de recursos orientada a dados precisa de enormes quantidades de amostras, pois cada comparação de modelo é de fato um teste estatístico. A seleção de recursos por conhecimento especializado, no entanto, pode ajudar imediatamente. @BGreene: você pode expandir por que a regularização não pode ajudar a reduzir os requisitos de tamanho da amostra (por exemplo, considerando uma crista em uma matriz de covariância mal condicionada)? IMHO não pode fazer maravilhas, mas pode ajudar.
Cbeleites suporta Monica
Bem, sem entrar em uma discussão épica, eu estava me referindo à formulação de regularização de Friedman, em vez de cume ou outra regressão penalizada. Mas, de qualquer maneira, os coeficientes não são reduzidos a zero, como no Lasso, de modo que a dimensionalidade não é afetada, o que, como resultado, não afeta o tamanho da amostra necessário para evitar uma matriz mal posta, como você mencionou acima. Desculpas se isso parece incoerente
BGreene
@ BGreene: sem divagações, perguntei de volta. A questão interessante é: quanto é que a df / complexidade geral é reduzida ao definir os coeficientes para zero de maneira orientada a dados . De qualquer forma, estamos à deriva em uma história diferente ...
cbeleites suporta Monica
4

Perguntar sobre o tamanho da amostra de treinamento implica que você irá reter dados para validação do modelo. Este é um processo instável que requer um grande tamanho de amostra. A validação interna forte com o bootstrap é geralmente preferida. Se você escolher esse caminho, precisará calcular apenas o tamanho de uma amostra. Como o @cbeleites tão bem afirmou, geralmente é uma avaliação de "eventos por candidato variável", mas você precisa de um mínimo de 96 observações para prever com precisão a probabilidade de um resultado binário, mesmo que não haja recursos a serem examinados. Margem de erro de confiança de 0,95 de 0,1 na estimativa da probabilidade marginal real de Y = 1].

É importante considerar as regras de pontuação adequadas para a avaliação da precisão (por exemplo, pontuação de Brier e probabilidade / desvio do log). Também certifique-se de que realmente deseja classificar as observações em vez de estimar a probabilidade de associação. O último é quase sempre mais útil, pois permite uma zona cinza.

Frank Harrell
fonte