Como clonar o repositório git apenas em alguns diretórios?

26

Por exemplo, quero fazer o download do PCL 3d_rec_framework.

Este é o repositório git do PCL: https://github.com/PointCloudLibrary/pcl.git

Como baixar este diretório?

https://github.com/PointCloudLibrary/pcl/tree/master/apps

Eu tentei executar, mas não funciona:

sam@sam:~/code/pcl_standalone$ git clone https://github.com/PointCloudLibrary/pcl/tree/master/apps/3d_rec_framework
Cloning into '3d_rec_framework'...
error: The requested URL returned error: 403 while accessing https://github.com/PointCloudLibrary/pcl/tree/master/apps/3d_rec_framework/info/refs
fatal: HTTP request failed
sam@sam:~/code/pcl_standalone$ 

Como fazer o download?

A propósito, eu não quero baixar o git do PCL e remover todos os outros diretórios que eu não quero. É por isso que faço essa pergunta.

Obrigado ~

sam
fonte

Respostas:

7

Você não pode. Com o git, você clona o repositório inteiro e o histórico completo do repositório.

Existem algumas soluções alternativas para conseguir obter um único arquivo de um arquivo git, listado em uma resposta do Stack Exchange para a mesma pergunta , mas você ainda precisará fazer o download de todo o repositório para obter o único arquivo ou diretório que deseja.

dobey
fonte
4
Simplesmente não é verdade: askubuntu.com/a/729798/384425
CelticParser
3
@ CelticParser Então, você afirma que minha resposta não é verdadeira e prossegue apontando para uma resposta que requer o download de todos os arquivos de um repositório git, para obter um único arquivo?
Dobey
2
ou askubuntu.com/a/645276/384425
CelticParser 4/16/16
> "Não quero baixar o git do PCL e remover todos os outros diretórios que não desejar." Isso é aberto. Eu li como @sam não deseja remover manualmente os diretórios.
CelticParser
39

A resposta do dobey não é mais o caso desde o git v1.7. Agora você pode fazer o checkout de determinadas pastas em um repositório. As instruções completas são encontradas aqui .

git init <repo>
cd <repo>
git remote add -f origin <url>

git config core.sparseCheckout true

echo "some/dir/" >> .git/info/sparse-checkout
echo "another/sub/tree" >> .git/info/sparse-checkout

Isso informa ao git quais diretórios você deseja fazer o checkout. Então você pode puxar apenas esses diretórios

git pull origin master
skukx
fonte
3
Isso implica que todas as versões do Ubuntu têm 1.7 disponíveis. Você deve verificar esse caso e comentar sua resposta aqui sobre quais versões individuais realmente funcionarão. O PowerShell também não é Ubuntu e, portanto, não deve ser incluído, na minha opinião.
Thomas Ward
2
@ThomasW. Todas as versões atualmente suportadas do Ubuntu incluem pelo menos git 1.7, e a maioria é 2.x agora.
Dobey
4
Ainda assim, isso clonará o repositório inteiro e fará essa verificação esparsa.
Clerenz
@ Dobey, sério você removeu informações úteis que as pessoas que encontram essa pergunta no Google podem estar procurando ?! Se fui forçado a usar o PowerShell, definitivamente gostaria de ver os detalhes do tubo, eles não são óbvios! eco "alguns / dir /" | Codificação de arquivo de saída ascii .git / info / sparse-checkout echo "another / sub / tree /" | Out-File -Append -Codificando ascii .git / info / sparse-checkout
Samuel Åslund
8

Primeiro, faça:

git clone --depth 1 [repo root] [name of destination directory]

Então:

cd [name of destination directory]

...E por fim:

git filter-branch --prune-empty --subdirectory-filter [path to sub-dir] HEAD

É tão fácil. O Git reescreverá o repositório para que apenas o subdiretório desejado seja incluído. Isso funciona mesmo que o subdiretório tenha várias camadas de profundidade. Apenas nomeie o diretório de destino como o nome do subdiretório. Em seguida, no comando "git filter-branch", coloque o caminho relativo para o subdiretório. Ah, o --depth 1guia diz gitpara baixar apenas o topo da cabeça ( essencialmente removendo a história ).

CelticParser
fonte
Isso permite que você baixe um único subdiretório, mas a pergunta se refere a vários diretórios. Isso é possível dessa maneira? Devo dizer que não vejo como isso funciona, olhando a documentação.
Joeppie
Existe uma maneira fácil de atualizar esse diretório periodicamente?
Clerenz
4

git clone --filter do Git 2.19

Esta opção realmente pula a busca da maioria dos objetos desnecessários do servidor:

git clone --depth 1 --no-checkout --filter=blob:none \
  "file://$(pwd)/server_repo" local_repo
cd local_repo
git checkout master -- mydir/myfile

O servidor deve ser configurado com:

git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

Não há suporte para servidor a partir da v2.19.0, mas ele já pode ser testado localmente.

TODO: --filter=blob:noneignora todos os blobs, mas ainda busca todos os objetos da árvore. Mas em um repositório normal, isso deve ser minúsculo em comparação com os próprios arquivos, portanto, isso já é bom o suficiente. Perguntado em: https://www.spinics.net/lists/git/msg342006.html Os Devs responderam que um --filter=tree:0está sendo trabalhado para fazer isso.

Lembre-se de que isso --depth 1já implica --single-branch, consulte também: /programming/1778088/how-to-clone-a-single-branch-in-git

file://$(path)é necessário para superar as git clonetravessuras de protocolo: /programming/47307578/how-to-shallow-clone-a-local-git-repository-with-a-relative-path

O formato de --filterestá documentado em man git-rev-list.

Foi feita uma extensão ao protocolo remoto Git para suportar esse recurso.

Documentos na árvore Git:

Consulte também: /programming/2466735/how-to-checkout-only-one-file-from-git-repository-sparse-checkout

Teste

#!/usr/bin/env bash
set -eu

list-objects() (
  git rev-list --all --objects
  echo "master commit SHA: $(git log -1 --format="%H")"
  echo "mybranch commit SHA: $(git log -1 --format="%H")"
  git ls-tree master
  git ls-tree mybranch | grep mybranch
  git ls-tree master~ | grep root
)

# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'

rm -rf server_repo local_repo
mkdir server_repo
cd server_repo

# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet

# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet

# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet

echo "# List and identify all objects"
list-objects
echo

# Restore master.
git checkout --quiet master
cd ..

# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo

# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo

echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo

echo "# Git checkout fetches the missing file from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/a
echo

echo "# Missing objects after checking out d1/a"
git rev-list --all --quiet --objects --missing=print

GitHub upstream .

Saída no Git v2.19.0:

# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root

# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63

# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.

Please make sure you have the correct access rights
and the repository exists.

# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.

# Missing objects after checking out d1
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb

Conclusões: todos os blobs, exceto, d1/aestão ausentes. Por exemplo f70a17f51b7b30fec48a32e4f19ac15e261fd1a4, ou seja d1/b, não existe após o check-out d1/.

Note-se que root/roote mybranch/mybranchtambém estão desaparecidos, mas --depth 1esconde que a partir da lista de arquivos ausentes. Se você remover --depth 1, eles serão exibidos na lista de arquivos ausentes.

Ciro Santilli adicionou uma nova foto
fonte