Existe um método comum usado para determinar quantas amostras de treinamento são necessárias para treinar um classificador (neste caso, uma LDA) para obter uma precisão mínima de generalização de limite?
Estou perguntando, porque gostaria de minimizar o tempo de calibração normalmente necessário em uma interface cérebro-computador.
classification
Lunat1c
fonte
fonte
Respostas:
O termo de pesquisa que você procura é "curva de aprendizado", que fornece o desempenho (médio) do modelo em função do tamanho da amostra de treinamento.
As curvas de aprendizado dependem de muitas coisas, por exemplo
(Eu acho que, para a LDA de duas classes, você pode derivar alguns cálculos teóricos de potência, mas o fato crucial é sempre se seus dados realmente atendem à suposição "normal igual multivariada de COV normal". Eu usaria algumas simulações para ambas as LDA suposições e reamostragem dos dados já existentes).
Outro aspecto que talvez você precise levar em consideração é que geralmente não é suficiente treinar um bom classificador, mas você também precisa provar que o classificador é bom (ou bom o suficiente). Portanto, você também precisa planejar o tamanho da amostra necessário para a validação com uma determinada precisão. Se você precisar fornecer esses resultados como uma fração de sucessos entre tantos casos de teste (por exemplo, precisão / precisão / sensibilidade / valor preditivo positivo do produtor ou consumidor), e a tarefa de classificação subjacente for bastante fácil, isso pode exigir casos mais independentes do que o treinamento de um bom modelo
Como regra geral, para o treinamento, o tamanho da amostra é geralmente discutido em relação à complexidade do modelo (número de casos: número de variáveis), enquanto limites absolutos no tamanho da amostra de teste podem ser dados para uma precisão necessária da medição de desempenho.
Aqui está um artigo, onde explicamos essas coisas com mais detalhes e também discutimos como construir curvas de aprendizado:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento do tamanho da amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Este é o "teaser", mostrando um problema fácil de classificação (na verdade, temos uma distinção fácil como essa em nosso problema de classificação, mas outras classes são muito mais difíceis de distinguir):
Não tentamos extrapolar para tamanhos maiores de amostra de treinamento para determinar quanto mais casos de treinamento são necessários, porque os tamanhos das amostras de teste são nosso gargalo e tamanhos maiores de amostra de treinamento nos permitiriam construir modelos mais complexos, portanto a extrapolação é questionável. Para o tipo de conjunto de dados que eu tenho, eu abordaria isso iterativamente, medindo vários casos novos, mostrando o quanto as coisas melhoraram, medindo mais casos e assim por diante.
Isso pode ser diferente para você, mas o artigo contém referências da literatura a artigos que utilizam extrapolação para tamanhos de amostra mais altos para estimar o número necessário de amostras.
fonte
Perguntar sobre o tamanho da amostra de treinamento implica que você irá reter dados para validação do modelo. Este é um processo instável que requer um grande tamanho de amostra. A validação interna forte com o bootstrap é geralmente preferida. Se você escolher esse caminho, precisará calcular apenas o tamanho de uma amostra. Como o @cbeleites tão bem afirmou, geralmente é uma avaliação de "eventos por candidato variável", mas você precisa de um mínimo de 96 observações para prever com precisão a probabilidade de um resultado binário, mesmo que não haja recursos a serem examinados. Margem de erro de confiança de 0,95 de 0,1 na estimativa da probabilidade marginal real de Y = 1].
É importante considerar as regras de pontuação adequadas para a avaliação da precisão (por exemplo, pontuação de Brier e probabilidade / desvio do log). Também certifique-se de que realmente deseja classificar as observações em vez de estimar a probabilidade de associação. O último é quase sempre mais útil, pois permite uma zona cinza.
fonte