Почему Amazon Echo не отвечает на рекламу или отчеты о Alexa?

24

Ранее я спросил о том, что вы можете сделать , если Alexa будет вызван телевизионной программой , но в последнее время я понял , что - то странный: Эхо не реагировать на голоса в рекламе для Echo, даже если голоса говорят «Alexa, играть ...» или "Алекса, установите таймер для ..." .

Я искал в нескольких других сообществах Echo и нашел пост в Reddit, который предполагает, что это обычное / предполагаемое поведение. Однако в этой ветке нет однозначного ответа, поэтому я решил спросить здесь, не знает ли кто-нибудь еще немного.

Откуда мое Эхо знает, что он не отвечает на телевизионную рекламу? Это просто совпадение или есть что-то, что говорит Алексе не реагировать?

Аврора0001
источник
Вы тренировали свою Алексу, чтобы узнать ваш голос более точно? Я не знаю, может ли тренировка голоса привести к тому, что мы не узнаем чужой голос.
Бенс Кауликс
1
@BenceKaulics Нет, мне не нужно тренировать Эхо; он использует настройки по умолчанию.
Aurora0001
Было бы очень полезно взглянуть на рассматриваемый звук. Я не думаю, что где-нибудь есть ссылка, которую можно связать?
goobering
1
@ Goobering Я считаю, что реклама, упомянутая в сообщении Reddit: талисман и огнетушитель . В настоящее время я не могу проверить, вызывают ли они Alexa (интересно, отличаются ли они от телевизионных версий?). Если бы кто-то мог сделать это и прокомментировать результаты, это было бы действительно полезно.
Aurora0001
3
Там могут быть подсказки в исходном коде . 266MB скачать, однако. Собираюсь быть в походе некоторое время. : P
goobering

Ответы:

17

Согласно этому сообщению Reddit , Алекса чувствительна к звуковому спектру в дополнение к обнаружению слова «пробуждение». Таким образом, нормальный широкополосный сигнал реального мира принимается, но сигнал, который ограничен полосой (постулируется отметка между 4 кГц и 5 кГц), будет идентифицирован как из широковещательной передачи.

Это имеет некоторый смысл, поскольку вещательные компании могут использовать внутриполосную сигнализацию для идентификации рекламы (для локализованной замены), а обработка звука, обычно применяемая к рекламе, может быть оптимизирована для ясности и достоверности. Фильтрация может быть настроена таким образом, чтобы типичные рекламные объявления отслеживались с пониженной чувствительностью, и во время создания конкретной рекламы чувствительность также могла быть явно уменьшена.

Отчет новостей (который , по сообщениям сделали спусковой Alexa) будет больше шансов использовать полный вещательный звуковой спектр (8 или 16 кГц) без обработки. Таким образом, эта теория предполагает, что во многих объявлениях есть что-то особенное (по крайней мере, в некоторых регионах), или реклама (например, производимая Amazon) может быть настроена специально.

В последующих, есть бумага сообщается здесь , который описывает , как небольшие (инфразвуковой) изменения формы сигнала может привести к речи двигателя возвращающегося совершенно другой результат по сравнению с тем, что бы человек признает.

Шон Хулихейн
источник
1
Если это то, что они отметили, и слово «бодрствование» - «Алекса», вполне вероятно, что они просто подавляют фрикционный звук «ks», чтобы минимизировать звук от микрофона. Это довольно высокая частота человеческой речи.
goobering
7

Я очень полагаю, что распознавание слова бодрствования в Эхо - это больше, чем просто прослушивание слова бодрствования. Он слушает тревожный контекст . Посмотрите на этот отрывок из Speech Technologies:

[A Wake-Up-Word] имеет следующее уникальное требование: обнаруживать отдельное слово или фразу при произнесении в контексте предупреждения, отклоняя все другие слова, фразы, звуки, шумы и другие акустические события практически с 100% точностью, включая те же интересующее слово или фраза, произнесенные в не-предупреждающем (то есть референтном) контексте

( Речевые технологии: распознавание речи при пробуждении от слова Ветона Кепуска)

Это легко проверить, поскольку устройство (по крайней мере, мое) не реагирует на предложение: « Я недавно говорил с Алексе о катании на лыжах ». Это не контекст предупреждения, а чисто ссылочный. Таким образом, механизм распознавания бодрствующего слова внутри Эхо не только слушает чистое появление слова, но также и на интонации и предшествующих паузах, которые позволяют более точно предсказать, было ли на самом деле произнесено устройство.

Хельмар
источник
4
Конечно, реклама, демонстрирующая использование Alexa, должна вызвать это, хотя, если это было только этим, мешая этому быть поднятым? Рекламные объявления, возможно, тщательно продуманы, чтобы они на самом деле не запускали устройство, несмотря на использование слова «пробуждение», чтобы продемонстрировать, как используется «Эхо»?
Aurora0001
2
@ Aurora0001 Я предполагаю, что в дополнение к тому, что я описываю, есть также некоторый метод в соответствии с тем, что Шон упоминает в своем ответе. Какой-то фильтр, который пытается уменьшить срабатывание других устройств.
Хельмар
7

Ну, эхо / Алекса определенно слышит запрос. Если вы зайдете в настройки, прокрутите вниз до пункта «Общие» и затем выберите историю, чтобы воспроизвести все запросы, которые были услышаны. Все запросы, которые слышны из рекламы, гласят: «Голосовой запрос не предназначен для вашего эха - ничего не возвращено».

Райан
источник
2
Похоже, новая деталь в истории. Очень полезно :)
Helmar
5

Если 1000 человек произнесут предупреждающее слово, оно будет иметь 1000 различных акустических подписей. Если они сделают это снова, еще 1000.

Если 1000 Alexas услышат телевизионную программу, произносящую предупреждающее слово, у нее будет 1000 таких же акустических подписей.

Не было бы так сложно обнаружить эту сторону сервера. Не в последнюю очередь потому, что если они происходят в одно и то же время, сервер голосовой связи получает поток трафика.

Если список этих инцидентов невелик, они могут даже загрузить подписи для каждого Алекса.


Кроме того, пользователь, вызывающий Alexa, звучит как молчание-предупреждение .

Новостная статья звучит как бла-бла-бла-бдительное слово . Рекламный ролик звучит как music_here alert-word. Совсем не то же самое.

Харпер - Восстановить Монику
источник
5

Мое общее предположение состоит в том, что в рекламе «Эха» Алекса отвечает на вопрос гораздо быстрее, чем в реальности. Поэтому Эхо слышит слово «Алекса», но почти сразу же слышит собственный голос Алексы, дающий ответ.

Мое эхо загорается, когда появляется реклама, но затем появляется, чтобы отключить предупреждение. Может быть какая-то логика, чтобы два Эхо не отвечали на запрос, если они оба его услышат. Эхо может быть разработано так, чтобы прислушиваться к собственному голосу Алексы и игнорировать его.

Однако, как я уже сказал, это полное предположение. :)

Энди Джонс
источник
Мы думали об одном и том же, поэтому остановили цифровой видеорегистратор между запросом Алексы и ее ответом в рекламе. Наше Эхо все еще проснулось, но затем отступило, не отвечая, идентично тому, что происходит, когда мы не делали паузу в DVR.
ViperGeek
Я хотел попробовать это целую вечность и продолжать забывать. Это еще одна вещь из списка дел, спасибо. :)
Энди Джонс
4

После недавних новых сообщений о том, что Alexa может быть чувствительным к звукам УВЧ ( ссылка на BBC News Sevice ), я постулирую, что во время рекламы они транслируют дополнительный звук помимо человеческого слуха, который обозначается как команда «игнорировать эту команду».

Что касается вышеупомянутой способности Alexa различать голоса пользователей, это функция, которая запланирована, но пока не реализована. то есть вы должны активно командовать Alexa, чтобы переключаться между учетными записями пользователей в одном домохозяйстве.

Единственное устройство, в настоящее время способное различать голоса, - это устройство Google.

Рай Ива
источник
1

При смешивании аудио рекламы они просто удаляют некоторые частоты. Это означает, что Alexa не будет запущен, так как он не зарегистрирует его в качестве голосовой команды, но зрители все еще могут разобрать, что они говорят в рекламе.

Вы также, вероятно, заметите, что когда команда произносится в рекламе, она звучит немного искаженно или искажено. Вот почему :)

Джон Смит
источник
Интересный; это немного похоже на то, что предложил Шон . Есть ли у вас какие-либо источники или опыт, которыми вы могли бы поделиться, чтобы доказать, что удаление частоты имеет место? Это может быть интересно исследовать.
Aurora0001