Como posso tornar meu Wiki do Github rastreável pelos mecanismos de pesquisa? O robots.txt parece proibi-lo

9

Ao usar o verificador de links W3C , descobri que meu Wiki do Github não pode ser rastreado:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (N / A) Proibido pelo robots.txt

Isso é lamentável, pois eu gostaria que as pessoas encontrassem facilmente este Wiki nos mecanismos de pesquisa.

PERGUNTA: Como posso tornar meu Wiki do Github rastreável pelos mecanismos de pesquisa?
Ou estou enganado e o robots.txt do Github está realmente bom?

nic
fonte
11
Suspeito que a resposta seja aproximadamente a mesma que nesta pergunta semelhante .
John C

Respostas:

9

O robots.txt do GitHub proíbe explicitamente o rastreamento das páginas da wiki, por exemplo, na seção Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Como esse é o arquivo de robôs em todo o site, não há como contorná-lo.

É uma opção interessante, já que o GitHub descreve os wikis como um local para "compartilhar conteúdo longo sobre o seu projeto". Como, por padrão, as wikis públicas são editáveis ​​por qualquer usuário, talvez seja uma proteção pesada contra spammers.

John C
fonte
0

Os wikis do GitHub são pesquisáveis ​​por mecanismos que o suportam. Veja as duas primeiras linhas de https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/

Provavelmente é para analisar vários formatos wiki, etc.

Por exemplo, pesquise no Google por "openrefine broker protocol" e o primeiro hit é uma página no wiki do projeto Github.

Peter Kehl
fonte
Hmm, então por que o Google está indexando o wiki do Broker-Protocol , e não o wiki do OP?
Vidar S. Ramdal 07/04