Был ли тест Ловеласа 2.0 успешно использован в академической обстановке?

18

В октябре 2014 года доктор Марк Ридл опубликовал подход к тестированию интеллекта ИИ, названный «Тест Лавласа 2.0» , после того, как был вдохновлен оригинальным тестом Лавласа (опубликованным в 2001 году). Марк полагал, что первоначальный тест Лавласа будет невозможно пройти, и поэтому предложил более слабую и более практичную версию.

Тест Лавласа 2.0 предполагает, что для того, чтобы ИИ был умным, он должен проявлять творческий подход. Из самой бумаги:

Тест Лавласа 2.0 выглядит следующим образом: искусственный агент А испытывается следующим образом:

  • должен создать артефакт o типа t;

  • o должен соответствовать набору ограничений C, где ci ∈ C - любой критерий, выражаемый на естественном языке;

  • человеческий оценщик h, выбрав t и C, убедился, что o является допустимым экземпляром t и соответствует C; и

  • человеческий рефери r определяет комбинацию t и C, чтобы быть нереальной для среднего человека.

Поскольку для оценщика-человека возможно придумать довольно простые ограничения для ИИ, то ожидается, что оценщик-человек будет продолжать придумывать все более и более сложные ограничения для ИИ, пока ИИ не выйдет из строя. Смысл теста Лавласа 2.0 состоит в том, чтобы сравнивать творческий потенциал различных ИИ, а не обеспечивать четкую границу между «интеллектом» и «неинтеллектом», как это сделал бы тест Тьюринга.

Тем не менее, мне любопытно, действительно ли этот тест использовался в академических условиях, или в настоящее время он рассматривается только как мысленный эксперимент. Тест Ловеласа, кажется, легко применять в академических условиях (вам нужно только разработать некоторые измеримые ограничения, которые вы можете использовать для тестирования искусственного агента), но он также может быть слишком субъективным (люди могут не согласиться с достоинствами определенных ограничений и творческий артефакт, созданный ИИ, фактически соответствует конечному результату).

Left SE On 10_6_19
источник

Ответы:

5

Нет.

TL; DR: тест Лавласа 2.0 очень расплывчатый, что делает его неподходящим для оценки интеллекта. Это также обычно игнорируется исследователями вычислительного творчества, которые уже имеют свои собственные тесты для оценки творчества.

Более длинный ответ: согласно Google Scholar, есть 10 ссылок на статью «Тест Лавласа 2.0». Все эти ссылки существуют лишь для того, чтобы указать, что существует тест Лавласа 2.0. На самом деле, по крайней мере, две из статей, с которыми я ознакомился ( Новый подход для идентификации схожего с человеком поведения и FraMoTEC: Структура для модульного построения задачи-среды для оценки адаптивных систем управления ), предложили свои собственные тесты.

Один из авторов, написавших статью FraMoTEC, также написал свою диссертацию о FraMoTEC и косвенно критиковал тест Лавласа 2.0 и другие подобные подобные тесты:

Проблема Piaget-MacGyver Room [Bringsjord and Licato, 2012], тест Лавласа 2.0 [Riedl, 2014] и проблема Toy Box [Johnston, 2010] все поставлены с оговоркой, которую необходимо определить очень расплывчато - эти методы оценки могут быть вероятными с разумной оценкой интеллекта, но очень трудно сравнить двух разных агентов (или контроллеров), которые участвуют в их собственных оценках, относящихся к конкретному предмету, что часто случается, когда агенты настроены на прохождение конкретных оценок.

Еще одна серьезная проблема с тестом Лавласа 2.0 заключается в том, что существует множество других тестов, чтобы «измерить» творческий потенциал ИИ. Оценка оценки: оценка прогресса в исследованиях вычислительного творчества , опубликованная Анной Джорданус в 2011 году (за 3 года до изобретения теста Лавласа 2.0), проанализировала научные статьи о творчестве ИИ и написала:

Из 18 работ, в которых применялись методики оценки творчества для оценки творчества их системы, ни одна методология не стала общепринятой в сообществе. Наиболее часто использовался каркас творческого штатива Колтона ( Colton 2008 ) (6 использований), причем 4 статьи использовали эмпирические критерии Ричи ( Ritchie 2007 ).

Это оставляет 10 работ с различными методами оценки творчества.

Цель «Оценки оценки» состояла в том, чтобы стандартизировать процесс оценки креативности, чтобы избежать возможности стагнации в поле из-за большого количества креативных тестов. Анна Джорданус по-прежнему интересовалась оценкой тестов на креативность, публикуя статьи, такие как «Возвращение к прогрессу: установление стандартов для мета-оценки вычислительного творчества» и четыре PPP-перспективы компьютерного творчества .

«Оценка оценки» содержит некоторые комментарии, чтобы объяснить распространение систем для оценки творчества:

Стандарты оценки нелегко определить. Трудно оценить креативность и еще сложнее описать, как мы оцениваем креативность как в творчестве человека, так и в вычислительном творчестве. На самом деле, даже само определение творчества проблематично (Plucker, Beghetto и Dow 2004). Трудно определить, что влечет за собой «творческий подход», поэтому нет никаких критериев или основополагающих истин для сравнения.

Тот факт, что так много тестов творчества уже существует (в той степени, в которой Джорданус может сделать академическую карьеру в их изучении), означает, что очень трудно для любого нового теста (такого как тест Лавласа 2.0) даже быть замеченным (гораздо менее цитируемым) ). Почему вы хотите использовать что-то вроде теста Лавласа 2.0, когда есть так много других тестов, которые вы можете использовать вместо этого?

Left SE On 10_6_19
источник