Existe uma maneira de baixar as transcrições do YouTube geradas automaticamente sem baixar o vídeo?
Gostaria de verificar as negociações do TED, mas tenho largura de banda limitada e gostaria de exportar as transcrições automáticas (também possivelmente conhecidas como legendas ou legendas).
Respostas:
Use a função "Inspetor de rede" do depurador de scripts do seu navegador e encontre a segunda solicitação para a página de texto com horário depois de ativar as legendas transcritas. Em seguida, basta copiar todas as solicitações na barra de endereços para fazer o download no formato xml nativo do YouTube.
Para obter a versão SRT, execute este código no console do depurador para a página do xml:
Também aqui está a versão do bookmarklet do script:
fonte
Existem algumas maneiras de extrair legendas de um vídeo do YouTube -
Ao especificar o idioma e o VideoId nesse URL genérico -
http://www.youtube.com/api/timedtext?lang={LANG}&v={VIDEOID}
você pode obter um.xml
arquivo contendo as legendas no idioma desejado para o vídeo escolhido.Para se livrar das tags contidas nesse arquivo e ter apenas a transcrição de texto sem formatação , aqui está o que você deve fazer:
Como alternativa, existe uma ferramenta de código aberto chamada Google2SRT que baixa todos os subs disponíveis de um vídeo do YouTube com um clique e os converte em
.srt
formato para que possa ser usado em players de mídia como o VLC Media Player.Atualização: O Ted.com agora fornece transcrições das conversas em seu site.
fonte
http://video.google.com/timedtext?lang=english&v=b11AXknrsEI
mas não funciona. Além disso, acessar as ferramentas de desenvolvedor não ajuda. Há toneladas de recursos lá e nenhum deles diz que o texto está programado.english
paraen
e,eng
mas faz a mesma coisa.Eu acho que este script de usuário deve funcionar para você:
http://userscripts.org/scripts/show/50003/
fonte
O Google2SRT 0.6 suporta o YouTube ASR: http://sourceforge.net/projects/google2srt/
fonte
Se for o seu próprio vídeo, você pode baixar as legendas no gerenciador de vídeo. Vamos para:
Gerenciador de vídeos >> Editar (no vídeo que você deseja) >> Legendas >> (Clique na faixa que deseja baixar) >> Ações (caixa suspensa)
No momento da escrita, existem três tipos de arquivos disponíveis:
Eles têm usos diferentes em aplicativos diferentes, mas são muito semelhantes. SRT é provavelmente o mais comum.
Caso contrário, se não for o seu vídeo, o melhor método (único método) é obter o arquivo xml nas ferramentas do desenvolvedor.
Usando o Google Chrome neste exemplo, navegue até o vídeo e siga estas etapas:
timedtext?
mais um monte de variáveis. O segundo é tipicamente o que você deseja. Começa assim:<transcript> <text start="4.14" dur="3.049">my name is doctor john rush</text> <text start="7.189" dur="3.731">I'm the CEO and president</text>
Esse arquivo xml é útil se você deseja usar a transcrição em uma página da web. Fora isso, acho que você não pode usá-lo da mesma maneira que usaria um arquivo SRT. Se você é bom em programação, pode escrever facilmente um programa que o converterá em SRT. Eu escrevi meu próprio programa C # que extrai os dados para uma finalidade diferente e levou menos de duas horas.
fonte