Почему люди могут выделить аудио в толпе? Что бы роботу сделать то же самое?

8

Ранее я был на конференции по робототехнике сегодня утром, и один из выступавших упомянул, что роботы не могут функционировать так же в толпе, потому что они не могут выделить аудио, как это может сделать человек.

Почему люди так хорошо выделяют звук? И что для этого потребуется роботу?

Я знаю об активном шумоподавлении (ANR), как на гарнитуре Bose Aviation, но я не об этом говорю. Я думаю о способности принимать все, но обрабатывать только то, что вы считаете важным.

Губка Боб
источник

Ответы:

7

То, что сказал докладчик на конференции, не совсем точно. Возможно, они имели в виду « наш робот не может выделить аудио, как может человек», но утверждение «[роботы] не могут выделить аудио, как может человек» неверно.

Вот неполный список систем, которые могут определять источник аудиосигнала и отслеживать его:

Вы ищете термин «поэтапный массив» микрофонов (см. Также: Набор инструментов для фазированного массива Matlab ). НАСА использует фазированные решетки для локализации шума, поступающего от лопастей вращающегося ротора .

Ян
источник
Прошло некоторое время с тех пор, как я взял этот аудио класс, но я также считаю, что любой данный голос должен иметь характеристики, которые можно было бы разумно считать уникальными в толпе.
Эрик Реппен
2
Чтобы добавить в ваш список, датчик Kinect для Windows имеет массив микрофонов, с помощью которого он может определить, с какого проигрывателя поступает звук.
WildCrustacean
Это отлично, у вас есть ссылка на то, как получить доступ к этой информации из Kinect?
Ян
+1. Но может ли робот принимать решения в реальном времени о том, что важно, и фильтровать в соответствии с этим? Мне кажется, что ваш список содержит только звуки, которые робот может выучить заранее.
Адриан Кейстер
Безусловно. Техника называется формированием луча . Предполагая, что у вас есть некоторые критерии фильтрации, которые считаются «важными», как только вы поймете этот сигнал, вы будете отслеживать его движение из этого пространственного местоположения.
Ян
2

Я думаю, что происходит по крайней мере три вещи:

  1. Фильтрация, которая зависит от местоположения, из которого исходит звук. Наш стереофонический слух в сочетании с определенными атрибутами того, как устроены наши уши, помогает нам изолировать звук, исходящий из определенного места / направления.
  2. Фильтрация зависит от частоты / амплитуды звука.
  3. Избыточность в аудио позволяет нам реконструировать вход. Если несколько человек говорят друг с другом (или, как правило, в присутствии шума), нам нужно уловить лишь часть того, что говорится (или иногда даже наблюдать визуально), чтобы знать, что говорится.

Я думаю, что робот может превзойти людей на # 1 и # 2. С набором микрофонов можно подумать, что вы могли бы эффективно сосредоточиться на одной точке пространства и устранить все другие помехи. Это может быть усложнено отражениями и различными другими помехами. # 3, вероятно, сложнее для компьютеров.

Гай Сиртон
источник
Секретное слово на сегодня является stereo hearing. Спросите любого человека, который потерял эту способность по любой причине. Таким образом, программа или даже робот с 2 или более микрофонами будут иметь эту возможность - если программист знает, как обрабатывать ввод.
ot--