Atraso máximo de áudio antes que o player perceba?
38
Dado algum evento em um jogo, qual é o atraso máximo na produção de áudio para que o jogador associe adequadamente o áudio a esse evento (e não perceba atraso)?
Não muito. Eu acho que tem que ser inferior a 1/10 de segundo. Embora pessoalmente, eu poderia notar se fossem mais do que alguns quadros a 60 FPS.
Almo 13/05
Não esqueça que, na maioria dos casos, a saída renderizada também terá algum atraso, alguns dos quais virão do monitor. Pode demorar mais de 100 ms para que o resultado da entrada do player seja exibido na tela. Veja anandtech.com/show/2803
Adam
1
São cerca de 20 milissegundos ao tocar um instrumento, cerca de 80 milissegundos quando você ouve. Esta é apenas minha experiência pessoal, sua milhagem pode variar.
Rwols 13/05
Mais do que qualquer hora específica, você precisa de consistência. Desde que tudo tenha o mesmo atraso, você pode estar dentro da razão. Se tudo estiver 100ms atrasado, você poderá não perceber, mas se alguns sons estiverem quase instantâneos e o restante estiver 100ms ou algo entre eles, você perceberá.
0xFADE 14/05
Se você está interessado em algum tipo de comportamento realista, considere um atraso para eventos distantes do ouvinte como algo positivo.
Darkwings
Respostas:
48
O resultado a seguir é calculado para a sincronização labial que é considerada "o erro de sincronização a / v mais perceptível" .
Para aplicativos de televisão, o áudio deve conduzir o vídeo em não mais que 15 milissegundos e o áudio deve atrasar o vídeo em não mais que 45 milissegundos. Para o filme, a sincronização labial aceitável é considerada não superior a 22 milissegundos em qualquer direção.
Os resultados do experimento determinaram que o limiar médio de áudio líder para detecção de sincronização a / v era 185,19 ms, com um desvio padrão de 42,32 ms
"Se você tiver um atraso, deve ser o vídeo que está atrasado." parece que deve ser revertido, o artigo da ATSC afirma claramente que as pessoas esperam / toleram o som acontecendo um pouco depois da visão (já que na vida real o som fica lento em aproximadamente 1 ms por pé de distância), mas não associa eventos adequadamente se o evento de vídeo ocorrer após o som.
Peteris 13/05
Você está certo, eu entendi completamente. Obrigado. (Editado)
Heckel
1
Por experiência pessoal, posso dizer que isso varia entre os ouvidos na mesma pessoa. Eu tenho uma condição vestibular rara que realmente faz com que meu cérebro processe estimulação auditiva no ouvido esquerdo com atraso mensurável em relação ao ouvido direito. Em um dia ruim, isso causa tonturas, mas na maioria das vezes é tolerável. Então, sim, isso é extremamente subjetivo.
Andon M. Coleman
Onde você consegue 150ms? Suas fontes claramente têm uma média de 45 ms.
Miles Rout
A Wikipedia diz 45ms, mas não é necessariamente a fonte mais confiável. A segunda fonte diz 185,19 ms e a terceira 125ms até se tornar perceptível. Você pode citar a fonte para me ajudar a entender onde estou errado?
Heckel
9
Depende do evento
Sentir que, digamos, uma explosão que você vê e ouve é um único evento terá as tolerâncias descritas em outras respostas - não mais que ~ 50ms; algumas pessoas podem ser mais sensíveis (por exemplo, músicos), então sugiro que aponte para 30ms ou não mais que 2 quadros a 60fps.
Acredito que a distância percebida deve afetar essas tolerâncias. As pessoas esperam que os sons distantes sejam levemente atrasados, já que na vida real o som fica lento em aproximadamente 1ms por cada pé de distância. Portanto, uma explosão em um 'mapa' de jogo RTS com zoom reduzido pode ter uma tolerância maior ao atraso do som do que o jogador disparando sua própria arma em um FPS.
Casos especializados, como ter uma noção adequada de um jogo de música / ritmo, podem exigir tolerâncias muito mais rigorosas, 15-20 ms ou até mais baixas - por exemplo, se o jogador ouvir a "ação de entrada", como cantar no microfone ou tocar um microfone. instrumento plástico e também um som gerado pelo seu sistema para o mesmo evento, um atraso de 50 ms fará com que os sons "original" e "tocado" se misturem estranhamente.
Além disso, lembre-se do atraso entre o início do arquivo de áudio e o "evento" dentro desse arquivo - em muitos clipes de áudio, o "evento" não estará no limite, você poderá ouvir um raio strike onde o 'strike' acontece 200ms após o início, o que seria óbvio para todos, e praticamente todos os arquivos de som, mesmo um hit de bateria, terão algum atraso lá.
Não meça médias - veja o pior caso
A visão e a audição estão profundamente conectadas na percepção humana e, se uma delas gagueja em relação à outra, será perceptível. Não é bom se na maioria das vezes é muito rápido, mas ocasionalmente há um atraso de 0,2 segundos enquanto algo está carregando - as pessoas perceberão essas situações. É por isso que o áudio geralmente é mantido em execução em um thread separado, isolado das outras atividades e recebendo apenas notificações rápidas sobre quais clipes pré-carregados devem ser reproduzidos.
Qualquer situação em que um jogador cause o som (jogos de música, armas no FPS) precisará de um atraso muito baixo, pois o jogador enviou um impulso para que isso acontecesse naquele momento, assim como um músico que ouve o instrumento atrasado, estará particularmente ciente de atrasos muito pequenos. Engenheiros de som se preocupam com atrasos na gravação abaixo de 5 mSec arruinando o "ritmo"
O Journal da Academia Americana de Audiologia
afirma que as pessoas (não apenas os músicos), ao ouvirem sua própria voz atrasada, estão cientes de atrasos tão curtos quanto 3mSec, e um atraso superior a 10 mSec era desagradável 90% das vezes.
Os seres humanos usam o atraso de tempo entre os ouvidos para obter informações direcionais e, portanto, devem ser capazes de processar e extrair informações de atrasos abaixo de 1mSec
Os 185,19 ms citados acima são irrelevantes, pois se referem a um erro de som principal e, de qualquer forma, ao que as pessoas consideravam aceitável ao assistir passivamente a um filme, não ativamente envolvido em um jogo.
A resposta aceita aqui discute principalmente a percepção da sincronização de áudio ao assistir passivamente o vídeo. Nesses casos, o público não pode determinar com facilidade exatamente quando o áudio deve ser reproduzido, exceto assistindo a sinais indicadores no vídeo. Isso significa que eles têm uma antecipação limitada do som.
Há dois casos importantes em jogos em que essa suposição de baixa antecipação não se aplica:
Quando o próprio jogador causou o som (como SamB aponta), a partir do momento em que eles pretendem pressionar o botão, eles sabem exatamente quando esperam ouvir o som.
Quando o som deve pousar em uma batida periódica , como em jogos de música ou qualquer coisa com um cronômetro / contador, esse ritmo permite ao jogador antecipar o próximo som e perceber se o tempo está esgotado.
Pavageau defende o uso de um retorno de chamada de áudio de baixo nível para obter esse tipo de precisão do sub-quadro, se você quiser uma jogabilidade rítmica com essa sensação.
Para jogos que exigem que uma pessoa reaja a pistas de áudio, a cada milissegundo em que o som é atrasado fará com que a resposta da pessoa seja igualmente atrasada. Alguém que está simplesmente assistindo a um filme ou cena pode não perceber muito se o áudio e o vídeo não estiverem exatamente sincronizados, mas geralmente é importante e às vezes crítico que o áudio esteja sincronizado com o que o player está fazendo .
Em teoria, tudo acima de 50ms pode ser perceptível quando se associa a imagens; em 25ms você pode começar a ouvir um som e seu atraso como dois sons separados, então eu diria que eu recomendo que você fique abaixo de 50ms e se você pode até ficar entre 5ms e 15ms, seria muito bom.
Esta resposta não adiciona nenhum novo conselho que ainda não esteja presente nas respostas existentes; portanto, corre o risco de parecer apenas um plug ou anúncio para as informações de contato da sua empresa. O StackExchange não se destina a promover serviços, portanto, recomendo remover essa parte (as pessoas ainda podem procurar por seu nome de usuário) e adicionar mais detalhes sobre por que você recomendaria horários específicos além do coberto nas respostas existentes.
DMGregory
Nenhuma das respostas que vimos foram certas para nós, somos uma equipe de engenheiros de som e a acústica é a primeira coisa que aprendemos. algumas respostas diziam mais de 100ms, outras diziam -100s e + 85s como isso é mesmo uma resposta? -50ms ou + 50ms, ainda 50ms de diferença entre a ação e o som. estamos apenas tentando ajudar se o envio de nosso e-mail for ofensivo e o removeremos.
X-Raysounds
Veja, por exemplo, a resposta de Peteris de 3 anos atrás, que fornece o mesmo limite máximo absoluto de 50 ms e recomenda menos que essa resposta, ou a referência à palestra de Mathieu Pavageau recomendando 5ms como o alvo ideal. Isso parece abranger toda a gama do conteúdo desta resposta, a menos que você queira expandir as recomendações? Por exemplo, se houver detalhes relevantes no link da Wikipedia, é uma boa prática, pelo menos, resumi-los no texto da resposta (caso a página vinculada seja alterada no futuro).
DMGregory
Ah, desculpe por não termos lido todas as respostas, apenas ignoramos algumas, depois dissemos o que sabemos e aplicamos com um link da Wikipedia, ainda somos novatos no fórum, estamos tentando dar alguma ajuda no som problemas relacionados, mas não encontramos muito haha
X-Raysounds
Não se preocupe. O treinamento de novos usuários é um dos motivos pelos quais esses comentários existem. :) Você entenderá rapidamente as respostas do StackExchange - significa apenas pensar nelas como recursos de referência de longo prazo, em vez de respostas do fórum.
Respostas:
O resultado a seguir é calculado para a sincronização labial que é considerada "o erro de sincronização a / v mais perceptível" .
Wikipedia diz
O Laboratório de Percepção de Mídia e Acústica diz
O ATSC diz
e
Concluir
Os resultados não estão tão longe um do outro. Parece que o atraso máximo aceitável é de cerca de 150ms, ou seja, 9 quadros a 60 quadros por segundo.
fonte
Depende do evento
Sentir que, digamos, uma explosão que você vê e ouve é um único evento terá as tolerâncias descritas em outras respostas - não mais que ~ 50ms; algumas pessoas podem ser mais sensíveis (por exemplo, músicos), então sugiro que aponte para 30ms ou não mais que 2 quadros a 60fps.
Acredito que a distância percebida deve afetar essas tolerâncias. As pessoas esperam que os sons distantes sejam levemente atrasados, já que na vida real o som fica lento em aproximadamente 1ms por cada pé de distância. Portanto, uma explosão em um 'mapa' de jogo RTS com zoom reduzido pode ter uma tolerância maior ao atraso do som do que o jogador disparando sua própria arma em um FPS.
Casos especializados, como ter uma noção adequada de um jogo de música / ritmo, podem exigir tolerâncias muito mais rigorosas, 15-20 ms ou até mais baixas - por exemplo, se o jogador ouvir a "ação de entrada", como cantar no microfone ou tocar um microfone. instrumento plástico e também um som gerado pelo seu sistema para o mesmo evento, um atraso de 50 ms fará com que os sons "original" e "tocado" se misturem estranhamente.
Além disso, lembre-se do atraso entre o início do arquivo de áudio e o "evento" dentro desse arquivo - em muitos clipes de áudio, o "evento" não estará no limite, você poderá ouvir um raio strike onde o 'strike' acontece 200ms após o início, o que seria óbvio para todos, e praticamente todos os arquivos de som, mesmo um hit de bateria, terão algum atraso lá.
Não meça médias - veja o pior caso
A visão e a audição estão profundamente conectadas na percepção humana e, se uma delas gagueja em relação à outra, será perceptível. Não é bom se na maioria das vezes é muito rápido, mas ocasionalmente há um atraso de 0,2 segundos enquanto algo está carregando - as pessoas perceberão essas situações. É por isso que o áudio geralmente é mantido em execução em um thread separado, isolado das outras atividades e recebendo apenas notificações rápidas sobre quais clipes pré-carregados devem ser reproduzidos.
fonte
Qualquer situação em que um jogador cause o som (jogos de música, armas no FPS) precisará de um atraso muito baixo, pois o jogador enviou um impulso para que isso acontecesse naquele momento, assim como um músico que ouve o instrumento atrasado, estará particularmente ciente de atrasos muito pequenos. Engenheiros de som se preocupam com atrasos na gravação abaixo de 5 mSec arruinando o "ritmo"
O Journal da Academia Americana de Audiologia afirma que as pessoas (não apenas os músicos), ao ouvirem sua própria voz atrasada, estão cientes de atrasos tão curtos quanto 3mSec, e um atraso superior a 10 mSec era desagradável 90% das vezes.
Os seres humanos usam o atraso de tempo entre os ouvidos para obter informações direcionais e, portanto, devem ser capazes de processar e extrair informações de atrasos abaixo de 1mSec
Os 185,19 ms citados acima são irrelevantes, pois se referem a um erro de som principal e, de qualquer forma, ao que as pessoas consideravam aceitável ao assistir passivamente a um filme, não ativamente envolvido em um jogo.
fonte
A resposta aceita aqui discute principalmente a percepção da sincronização de áudio ao assistir passivamente o vídeo. Nesses casos, o público não pode determinar com facilidade exatamente quando o áudio deve ser reproduzido, exceto assistindo a sinais indicadores no vídeo. Isso significa que eles têm uma antecipação limitada do som.
Há dois casos importantes em jogos em que essa suposição de baixa antecipação não se aplica:
Quando o próprio jogador causou o som (como SamB aponta), a partir do momento em que eles pretendem pressionar o botão, eles sabem exatamente quando esperam ouvir o som.
Quando o som deve pousar em uma batida periódica , como em jogos de música ou qualquer coisa com um cronômetro / contador, esse ritmo permite ao jogador antecipar o próximo som e perceber se o tempo está esgotado.
Nesta palestra da GDC 2013, Mathieu Pavageau argumenta que os jogadores podem perceber diferenças na precisão da sincronização acima de cerca de 5ms , muito menos tolerantes do que os exemplos da sincronização labial sugeririam. Confira as seções "Exemplos de percepção de tempo" e "Exemplo de jogos da Ubisoft" para ouvir por si mesmo. Você pode ouvir que o menu Rayman Origins não soa "atrasado" por si só quando sincronizado em 16 ms (quadro de vídeo), mas quando sincronizado em 5 ms, parece visivelmente melhor e mais preciso.
Pavageau defende o uso de um retorno de chamada de áudio de baixo nível para obter esse tipo de precisão do sub-quadro, se você quiser uma jogabilidade rítmica com essa sensação.
fonte
Para jogos que exigem que uma pessoa reaja a pistas de áudio, a cada milissegundo em que o som é atrasado fará com que a resposta da pessoa seja igualmente atrasada. Alguém que está simplesmente assistindo a um filme ou cena pode não perceber muito se o áudio e o vídeo não estiverem exatamente sincronizados, mas geralmente é importante e às vezes crítico que o áudio esteja sincronizado com o que o player está fazendo .
fonte
Em teoria, tudo acima de 50ms pode ser perceptível quando se associa a imagens; em 25ms você pode começar a ouvir um som e seu atraso como dois sons separados, então eu diria que eu recomendo que você fique abaixo de 50ms e se você pode até ficar entre 5ms e 15ms, seria muito bom.
Eu espero que isso te ajude!
https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback
fonte