Eu sou um pesquisador prático e gosto de testar soluções viáveis, por isso tenho muitas experiências. Por exemplo, se estiver calculando uma pontuação de similaridade entre documentos, convém tentar várias medidas. De fato, para cada medida, talvez seja necessário fazer várias execuções para testar o efeito de alguns parâmetros.
Até o momento, acompanhei as entradas de execuções e seus resultados gravando os resultados em arquivos com o máximo de informações sobre as entradas. O problema é que recuperar um resultado específico às vezes se torna um desafio, mesmo que eu tente adicionar as informações de entrada ao nome do arquivo. Tentei usar uma planilha com links para resultados, mas isso não está fazendo muita diferença.
Quais ferramentas / processos você usa para a contabilidade de seus experimentos?
fonte
Respostas:
convém consultar http://deeplearning.net/software/jobman/intro.html
foi projetado para aprendizado profundo (eu acho), mas é independente de aplicativo. É efetivamente uma versão API da abordagem SeanEasters
fonte
Recentemente, deparei com um problema semelhante: como gerenciar a extração de uma variedade de recursos de um grande conjunto de dados, sem saber de antemão quais seriam todos eles. (Mesmo o cálculo de valores médios repetidamente seria computacionalmente caro.) Além disso, como gerenciaria previsões com base em diferentes conjuntos de recursos? Ou seja, se eu adicionasse um novo recurso, como saberia quais modelos treinar em novos recursos? Poderia rapidamente cair em uma bagunça enorme.
Minha solução atual é rastrear tudo em um banco de dados NoSQL local (MongoDB). Por exemplo, eu posso ter uma coleção
features
, cada entrada com um nome, uma descrição de como o recurso foi calculado, o arquivo python que executou a extração etc.Da mesma forma, uma coleção
models
inclui modelos executados nos dados. Cada entrada pode ter um nome, uma lista de recursos que foram usados para treinar o modelo, seus possíveis parâmetros, valores previstos em um conjunto de testes retido, métricas de desempenho do modelo etc.Do meu ponto de vista, isso tem vários benefícios:
Da sua pergunta, parece que você pode adaptar essa abordagem ao fluxo de trabalho do seu problema. Instale o Mongo ou outro banco de dados de escolha e salve cada execução experimental, suas entradas, resultados e qualquer outra coisa que você queira acompanhar ao longo do projeto. Isso deve ser muito mais fácil de consultar do que uma planilha, pelo menos.
fonte