Quero que meus dados e modelos sejam armazenados em intervalos separados do Google Cloud. A idéia é que eu quero compartilhar os dados com outras pessoas sem compartilhar os modelos.
Uma idéia em que posso pensar é usar sub-módulos git separados para dados e modelos. Mas isso parece complicado e impõe alguns requisitos adicionais ao usuário final (por exemplo, ter que fazer git submodule update
).
Então, eu posso fazer isso sem usar sub-módulos git?
Sim, você pode usar vários controles remotos sem submódulos Git.
Existe um comando separado para usar artefatos de dados de repositórios externos:
dvc import http://your-repo datadir
O comando traz dados para o seu repositório e mantém a conexão com o repositório original (para evitar duplicação de dados em diferentes remotos).No seu caso, um repositório pode ser usado para um conjunto de dados com seus próprios dados remotos. Um segundo repositório pode ser usado para o código e modelos que importam o projeto do conjunto de dados, enquanto todos os seus modelos e saídas vão para outro controle remoto de dados.
Com
import
, nãodvc push -r myremote
são necessários. Um padrãodvc push
sincroniza os dados em um controle remoto adequado.EDITADO: Simplesmente use um repositório Git para conjunto de dados com sua pasta S3 / remote de dados e importe-o de outro repositório com código, modelo e outra pasta S3 / data-remote.
fonte