Максимальная задержка звука до того, как плеер заметит?
38
Учитывая какое-то событие в игре, какова максимальная задержка при создании звука, чтобы игрок правильно связывал звук с этим событием (и не воспринимал задержку)?
Немного. Я предполагаю, что это должно быть меньше, чем 1/10 секунды. Хотя лично я мог бы заметить это, если бы это было больше чем несколько кадров в 60 FPS.
Almo
Не забывайте, что в большинстве случаев отрендеренный вывод также будет иметь некоторые задержки, некоторые из которых будут поступать с монитора. Может потребоваться более 100 мс, чтобы результат ввода игрока отображался на экране. См. Anandtech.com/show/2803
Адам
1
Это примерно 20 миллисекунд при игре на инструменте, около 80 миллисекунд, когда вы слушаете. Это только мой личный опыт, ваш пробег может отличаться.
rwols
Больше, чем любое конкретное время, вам нужна последовательность. Пока все имеют одинаковую задержку, вы можете быть в пределах разумного. Если все запаздывает на 100 мс, вы можете не заметить этого, но если некоторые звуки близки к мгновенным, а остальные - 100 мс или что-то среднее, то вы заметите.
0xFADE
Если вас каким-либо образом интересует какое-то реалистичное поведение, вы можете считать некоторую задержку событий, находящихся далеко от слушателя, чем-то положительным.
Darkwings
Ответы:
48
Следующий результат рассчитан для синхронизации губ, которая считается «наиболее заметной ошибкой синхронизации аудио / видео» .
Для телевизионных приложений звук должен опережать видео не более чем на 15 миллисекунд, а звук должен отставать от видео не более чем на 45 миллисекунд. Для пленки приемлемая синхронизация губ считается не более 22 миллисекунд в любом направлении.
Результаты эксперимента определили, что средний порог опережающего звука для обнаружения аудио / видео синхронизации был 185,19 мс, со стандартным отклонением 42,32 мс.
На первый взгляд кажется, что «окно приемлемости» от +90 мс до -185 мс
а также
Неопределяемый от -100 мс до +25 мс
Обнаруживается при -125 мс и +45 мс
Становится недопустимым при -185 мс и +90 мс
(- Звук задержан, + Звук продвинут)
Заключить
Результаты не так далеко друг от друга. Кажется, что максимально допустимая задержка составляет около 150 мс, что составляет 9 кадров при 60 кадрах в секунду.
«Если у вас есть задержка, это должно быть видео, которое задерживается». кажется, что это должно быть полностью изменено, статья ATSC ясно заявляет, что люди ожидают / терпят звук, происходящий немного после взгляда (так как в реальной жизни звук отстает от зрения приблизительно на 1 мс на фут расстояния), но не связывают события должным образом если видео событие происходит после звука.
Петерис
Вы правы, я совершенно не понял. Спасибо. (Я редактировал)
Геккель
1
Я могу сказать вам по личному опыту, что это даже варьируется между ушами одного и того же человека. У меня редкое вестибулярное заболевание, которое фактически заставляет мой мозг обрабатывать слуховую стимуляцию в левом ухе, заметно задерживаясь по сравнению с правым ухом. В плохой день это вызывает головокружение, но в большинстве случаев это терпимо. Так что да, это чрезвычайно субъективно.
Andon M. Coleman
Где вы получаете 150 мс? Ваши источники явно в среднем около 45 мс.
Майлз Рут
Википедия говорит 45 мс, но это не обязательно самый надежный источник. Второй источник сообщает 185,19 мс, а третий 125 мс, пока не станет заметным. Можете ли вы процитировать источник, чтобы помочь мне понять, где я не прав?
Геккель
9
Это зависит от события
Чувствуя, что, скажем, взрыв, который вы видите и слышите как одно событие, будет иметь допуски, описанные в других ответах - не более ~ 50 мс; некоторые люди могут быть более чувствительными (например, музыканты), поэтому я бы предложил нацелиться на 30 мс или не более 2 кадров при 60 кадрах в секунду.
Я считаю, что воспринимаемое расстояние должно влиять на эти допуски. Люди ожидают, что далекие звуки будут немного задерживаться, поскольку в реальной жизни звук отстает от зрения примерно на 1 мс на каждый фут расстояния. Таким образом, взрыв на уменьшенной «карте» RTS-игры может иметь больший допуск к задержке звука, чем у игрока, стреляющего из собственного оружия в FPS.
В особых случаях, таких как правильное восприятие музыкальной / ритмической игры, могут потребоваться более жесткие допуски, 15-20 мс или даже меньше, например, если игрок слышит оба «входных действия», таких как пение в микрофон или стук в микрофон. пластиковый инструмент, а также звук, генерируемый вашей системой для того же события, а затем задержка в 50 мс приведет к странному микшированию «оригинальных» и «проигрываемых» звуков.
Кроме того, имейте в виду лагуну между началом аудиофайла и «событием» внутри этого аудиофайла - во многих аудиоклипах «событие» не будет прямо на краю, возможно, вы услышите звук молнии. страйк, где «страйк» происходит через 200 мс после начала, что было бы очевидно для всех, и почти все звуковые файлы, даже ударные, будут иметь некоторую задержку.
Не измеряйте средние значения - посмотрите на худший случай
Зрение и слух тесно связаны в человеческом восприятии, и если один из них заикается относительно другого, тогда он будет восприниматься. Это не хорошо, если в большинстве случаев это очень быстро, но иногда происходит задержка в 0,2 секунды, когда что-то загружается - люди заметят такие ситуации. Вот почему аудио часто работает в отдельном потоке, изолированном от других действий, и просто получает быстрые уведомления о том, какие предварительно загруженные клипы следует воспроизводить.
Любая ситуация, когда игрок вызывает звук (музыкальные игры, оружие в FPS), требует очень небольшой задержки, так как игрок послал импульс, чтобы это произошло в тот момент, так как музыкант, услышавший задержку своего инструмента, будет особенно осведомлен очень маленьких задержек. Звукорежиссеры беспокоятся о задержках записи ниже 5 мсек, разрушая «канавку»
Журнал Американской академии аудиологии
утверждает, что люди (а не только музыканты), слушая собственный голос с задержкой, знают, что задержки составляют всего 3 мсек, а задержка более 10 мсек нежелательна в 90% случаев.
Люди используют задержку времени между ушами для получения информации о направлении и, следовательно, должны иметь возможность обрабатывать и извлекать информацию из задержек ниже 1 мсек.
Упомянутые выше 185,19 мс не имеют значения, поскольку они относятся к ведущей звуковой ошибке и, во всяком случае, к тому, что люди считают приемлемым, когда пассивно смотрят фильм, а не активно участвуют в игре.
Принятый ответ здесь в основном обсуждает восприятие аудио синхронизации при пассивном просмотре видео. В этих случаях аудитория не может точно определить, когда должен воспроизводиться звук, за исключением случаев, когда на видео присутствуют контрольные знаки. Это означает, что они имеют ограниченное ожидание звука.
В играх есть два важных случая, когда предположение о низком ожидании не выполняется:
Когда игрок сам вызвал звук (как указывает SamB), с того момента, как он сформировал намерение нажать кнопку, он точно знает, когда он ожидает услышать звук.
Когда звук должен звучать с периодическим ритмом , как в музыкальных играх или чем-то еще с тикающим таймером / счетчиком, этот ритм позволяет игроку предвидеть следующий звук и замечать, воспроизводится ли время.
Pavageau рекомендует использовать низкоуровневый звуковой обратный вызов, чтобы получить подобную точность субкадра, если вы хотите напряженный ритмичный игровой процесс этого разнообразия.
В играх, в которых требуется, чтобы человек реагировал на звуковые сигналы, каждая миллисекунда, на которую задерживается звук, также вызывает задержку реакции человека на звук. Кто-то, кто просто смотрит фильм или кат-сцену, может не заметить слишком много, если аудио и видео не точно синхронизированы, но часто важно и иногда важно, чтобы аудио синхронизировалось с тем, что от проигрывателя ожидается .
Теоретически, все, что выше 50 мс, может быть заметно, когда оно связано с изображениями, в 25 мс вы можете начать слышать звук и его задержку в виде двух отдельных звуков, поэтому я бы сказал, что я настоятельно рекомендую вам не превышать 50 мс, и если вы может даже остаться на что-то от 5 мс до 15 мс, это было бы очень приятно.
Этот ответ не добавляет каких-либо новых советов, которых еще нет в существующих ответах, поэтому он может оказаться просто штепселем или рекламой для контактной информации вашей компании. StackExchange не предназначен для продвижения услуг, поэтому я бы порекомендовал удалить эту часть (люди все равно могут найти вас по вашему имени пользователя) и добавить более подробную информацию о том, почему вы бы порекомендовали конкретные сроки помимо того, что описано в существующих ответах.
DMGregory
Ни один из ответов, которые мы увидели, не был правильным для нас, мы команда звукорежиссеров, и акустика - это первое, что мы узнали. в некоторых ответах говорилось более 100 мс, а в других - 100 с и + 85, как же это ответ? -50 мс или + 50 мс, это все равно 50 мс разницы между действием и звуком. мы только пытаемся помочь, если предоставление нашей электронной почты является оскорбительным, мы удалим его.
X-Raysounds
См., Например, ответ Петериса от 3 лет назад, который дает тот же абсолютный верхний предел в 50 мс и рекомендует меньший, как этот ответ, или ссылку на доклад Матье Паважо, рекомендующий 5 мс в качестве идеальной цели. Кажется, это охватывает весь спектр вопросов, содержащихся в этом ответе, если вы не хотите углубляться в рекомендации? Например, если есть детали из ссылки на Википедию, которые, по вашему мнению, актуальны, рекомендуется по крайней мере обобщить их в тексте ответа (в случае, если связанная страница изменится в будущем).
DMGregory
Ах, извините за то, что мы не прочитали все ответы, мы просто пропустили некоторые из них, затем мы сказали то, что мы знаем, и применили это с помощью ссылки в Википедии, мы все еще новички на форуме, мы пытаемся оказать некоторую помощь по звуку связанные проблемы, но мы не нашли много ха-ха
X-Raysounds
Не стоит беспокоиться. Обучение новых пользователей является одной из причин, по которой эти комментарии существуют. :) Вы быстро освоите ответы на StackExchange - это просто означает, что вы думаете о них как о долгосрочных справочных ресурсах, а не как ответы на форуме.
Ответы:
Следующий результат рассчитан для синхронизации губ, которая считается «наиболее заметной ошибкой синхронизации аудио / видео» .
Википедия говорит
Лаборатория восприятия медиа и акустики говорит
ATSC говорит
а также
Заключить
Результаты не так далеко друг от друга. Кажется, что максимально допустимая задержка составляет около 150 мс, что составляет 9 кадров при 60 кадрах в секунду.
источник
Это зависит от события
Чувствуя, что, скажем, взрыв, который вы видите и слышите как одно событие, будет иметь допуски, описанные в других ответах - не более ~ 50 мс; некоторые люди могут быть более чувствительными (например, музыканты), поэтому я бы предложил нацелиться на 30 мс или не более 2 кадров при 60 кадрах в секунду.
Я считаю, что воспринимаемое расстояние должно влиять на эти допуски. Люди ожидают, что далекие звуки будут немного задерживаться, поскольку в реальной жизни звук отстает от зрения примерно на 1 мс на каждый фут расстояния. Таким образом, взрыв на уменьшенной «карте» RTS-игры может иметь больший допуск к задержке звука, чем у игрока, стреляющего из собственного оружия в FPS.
В особых случаях, таких как правильное восприятие музыкальной / ритмической игры, могут потребоваться более жесткие допуски, 15-20 мс или даже меньше, например, если игрок слышит оба «входных действия», таких как пение в микрофон или стук в микрофон. пластиковый инструмент, а также звук, генерируемый вашей системой для того же события, а затем задержка в 50 мс приведет к странному микшированию «оригинальных» и «проигрываемых» звуков.
Кроме того, имейте в виду лагуну между началом аудиофайла и «событием» внутри этого аудиофайла - во многих аудиоклипах «событие» не будет прямо на краю, возможно, вы услышите звук молнии. страйк, где «страйк» происходит через 200 мс после начала, что было бы очевидно для всех, и почти все звуковые файлы, даже ударные, будут иметь некоторую задержку.
Не измеряйте средние значения - посмотрите на худший случай
Зрение и слух тесно связаны в человеческом восприятии, и если один из них заикается относительно другого, тогда он будет восприниматься. Это не хорошо, если в большинстве случаев это очень быстро, но иногда происходит задержка в 0,2 секунды, когда что-то загружается - люди заметят такие ситуации. Вот почему аудио часто работает в отдельном потоке, изолированном от других действий, и просто получает быстрые уведомления о том, какие предварительно загруженные клипы следует воспроизводить.
источник
Любая ситуация, когда игрок вызывает звук (музыкальные игры, оружие в FPS), требует очень небольшой задержки, так как игрок послал импульс, чтобы это произошло в тот момент, так как музыкант, услышавший задержку своего инструмента, будет особенно осведомлен очень маленьких задержек. Звукорежиссеры беспокоятся о задержках записи ниже 5 мсек, разрушая «канавку»
Журнал Американской академии аудиологии утверждает, что люди (а не только музыканты), слушая собственный голос с задержкой, знают, что задержки составляют всего 3 мсек, а задержка более 10 мсек нежелательна в 90% случаев.
Люди используют задержку времени между ушами для получения информации о направлении и, следовательно, должны иметь возможность обрабатывать и извлекать информацию из задержек ниже 1 мсек.
Упомянутые выше 185,19 мс не имеют значения, поскольку они относятся к ведущей звуковой ошибке и, во всяком случае, к тому, что люди считают приемлемым, когда пассивно смотрят фильм, а не активно участвуют в игре.
источник
Принятый ответ здесь в основном обсуждает восприятие аудио синхронизации при пассивном просмотре видео. В этих случаях аудитория не может точно определить, когда должен воспроизводиться звук, за исключением случаев, когда на видео присутствуют контрольные знаки. Это означает, что они имеют ограниченное ожидание звука.
В играх есть два важных случая, когда предположение о низком ожидании не выполняется:
Когда игрок сам вызвал звук (как указывает SamB), с того момента, как он сформировал намерение нажать кнопку, он точно знает, когда он ожидает услышать звук.
Когда звук должен звучать с периодическим ритмом , как в музыкальных играх или чем-то еще с тикающим таймером / счетчиком, этот ритм позволяет игроку предвидеть следующий звук и замечать, воспроизводится ли время.
В этом выступлении на GDC 2013 Матье Паведжо утверждает, что игроки могут ощущать различия в точности синхронизации выше примерно 5 мс , что гораздо менее прощающе, чем можно предположить из примеров синхронизации по губам. Проверьте разделы «Примеры восприятия времени» и «Пример игр Ubisoft», чтобы услышать это сами. Вы можете услышать, что меню Rayman Origins не звучит «запаздывающе» само по себе при синхронизации в течение 16 мс (видеокадр), но при синхронизации в течение 5 мс оно звучит заметно лучше и плотнее.
Pavageau рекомендует использовать низкоуровневый звуковой обратный вызов, чтобы получить подобную точность субкадра, если вы хотите напряженный ритмичный игровой процесс этого разнообразия.
источник
В играх, в которых требуется, чтобы человек реагировал на звуковые сигналы, каждая миллисекунда, на которую задерживается звук, также вызывает задержку реакции человека на звук. Кто-то, кто просто смотрит фильм или кат-сцену, может не заметить слишком много, если аудио и видео не точно синхронизированы, но часто важно и иногда важно, чтобы аудио синхронизировалось с тем, что от проигрывателя ожидается .
источник
Теоретически, все, что выше 50 мс, может быть заметно, когда оно связано с изображениями, в 25 мс вы можете начать слышать звук и его задержку в виде двух отдельных звуков, поэтому я бы сказал, что я настоятельно рекомендую вам не превышать 50 мс, и если вы может даже остаться на что-то от 5 мс до 15 мс, это было бы очень приятно.
Я надеюсь, что это поможет вам!
https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback
источник