Можно ли обучить глубокие сети доказательству теорем?

21

Предположим, у нас есть большое количество доказательств в исчислении предикатов первого порядка. Предположим, у нас также есть аксиомы, следствия и теоремы в этой области математики в этой форме.

Рассмотрим каждое доказанное утверждение и основную часть существующей теории, которая окружает это конкретное предложение, в качестве примера в обучающем наборе и известного хорошего доказательства для предложения в качестве связанных ярлыков. Теперь рассмотрим глубокую искусственную сеть, специально разработанную для обучения на этом наборе примеров, и гиперпараметры, установленные для этого правильно.

Можно ли обучить глубокую искусственную сеть таким образом, чтобы представление нового предложения и существующей теории, окружающей его, представленное в исчислении предикатов первого порядка на входе, дало бы доказательство на выходе?

(Конечно, такие доказательства должны быть проверены вручную.)

Если доля хороших доказательств, полученных в результате, была достаточно высока, возможно ли было бы создать генетический алгоритм, который предлагает предложения для обученной глубокой сети, создавая таким образом доказательства?

Это возможно?

Можно ли было бы использовать этот вид глубокого построения сети для решения гипотезы Коллатца, гипотезы Римана или, по крайней мере, переставить закономерности таким образом, чтобы математики были более способны прийти к законным доказательствам?

Макс Мустерманн Младший
источник
5
Насколько я могу сказать "громкое нет", NN хороши только для приближений функций (очень хорошо) ... говоря, что NN может делать то, что вы говорите, он может сделать, исходя из базового предположения, что все доказательства каким-то образом являются функцией пробелмы, вариабалы или другие вещи ... и я не знаю, сказал ли кто-то это так
DuttaA
2
@DouglasDaseeco почти все доказательства - математики, воображающие что-то абстрактное «интуитивно», а затем воплощающие его в жизнь… тогда как Н.Н. определенно не способен на это… они смогут доказать лишь мелкие или подобные теоремы, такие как нахождение случая исключения и таким образом опровергнуть или что-то в этом
роде
1
@DuttaA, интуиция гораздо проще научить нейронной сети, чем логике. Искусственные сети могут сортировать неоднозначно адресованную почту без механизма правил. Извлечение функций и неконтролируемая категоризация также ближе к интуиции. Логические операции, такие как умножение двойников, являются непреодолимыми. В психологии развития интуитивное привлечение внимания взрослых происходит за годы до логической И и ИЛИ концептуализации. Дети не думают о причинно-следственной связи: «Если я ною, мама сломается и даст мне сахар». Они выполняют функцию, а не план. В моем ответе здесь первые два пункта наиболее сложны.
FauChristian
2
Могу ли я предложить использовать NN для руководства традиционным доказательством теорем. Регулярный доказатель теорем представляет возможности для сети, и NN просто должен выбрать один. Таким образом, не нужно изучать то, что является и не является действительной логикой, только то, что интересно.
PyRulez

Ответы:

6

Существующие производственные системы, разработанные за последние несколько десятилетий, имеют закодированные в них правила вывода. Они основаны на представлении Лейбница о том, что вся классическая логика может быть закодирована на символическом языке и обработана механически. Была разработана логика предикатов первого порядка и формализована номеклатура.

Хотя концепция автоматического доказательства теорем была значительно оспорена двумя теоремами Гёделя о неполноте, работа Полного по Тьюрингу и разработка архитектуры для ее практической реализации фон Нейманом возродили работу по автоматизации механического процесса вывода.

Лаборатория искусственного интеллекта Массачусетского технологического института во времена Минского была полна таких усилий, но то, что они назвали комбинаторным взрывом, показало, что было недостаточно доступности вычислительных ресурсов для поиска пространства, необходимого для автоматического доказательства произвольных теорем нетривиальной сложности. Большие параллельные компьютеры, называемые машинами соединения, и различные схемы, использующие мета-правила и эвристические подходы, использовались для преодоления проблемы комбинаторного взрыва.

Сообщество LISP впервые предложило искусственные сети, и идея о том, что они могут конкурировать с производственными машинами, была отвергнута. Однако в контексте значительного успеха в увеличении вычислительных ресурсов и недавних достижений в области машинного обучения многие начали задавать вопросы, которые были отложены в двадцатом веке.

Мы уже знаем, что искусственные сети могут изучать произвольные логические и алгебраические функции, многие из которых являются PAC Learnable.1 При условии правильной учебной среды, логический вывод обучения - это то, что кора головного мозга может делать на своем нынешнем этапе эволюции. Достигнут ли нейронные сети такого уровня познания - вопрос, который многие задают.

Это основное исследование искусственного интеллекта и машинного обучения не фокусируется на искусственном сетевом получении правил логического вывода, главным образом потому, что программирование их в системе, такой как DRools и другие широко используемые производственные системы, кажется более рациональным подходом, но это не значит, что так будет всегда. Вопрос заключается в том, существует ли достаточный возврат инвестиций, чтобы сделать то, что может быть интересно, но, безусловно, дорого, когда уже существуют другие решения.

Этот вопрос похож на другой вопрос об обмене стеками искусственного интеллекта о том, насколько хорош ИИ в математике. Один из ответов, приведенных там применим здесь.

Важно не отклонять какой-либо подход в этот период времени, так как недавний интерес к ИИ привел не только к возрождению государственных расходов, но и к коммерческим расходам. Эти расходы увеличивают персонал, вычислительные мощности и стимулы для преодоления препятствий, которые раньше считались непреодолимыми.


Сноски

[1] PAC Learning является основой для определения практической вычислимости алгоритмов обучения с учетом особенностей класса гипотез, которые можно выучить с использованием данной модели, а также ожидаемой точности и достоверности процесса обучения.

FauChristian
источник
1

В целом ваша идея может быть осуществимой, но нейронная сеть, вероятно, не тот высокоуровневый инструмент, который можно использовать для изучения этой проблемы.

Сила нейронной сети заключается в нахождении внутренних представлений, которые позволяют получить весьма нелинейное решение при отображении входов на выходы. Когда мы обучаем нейронную сеть, эти сопоставления изучаются статистически через повторение примеров. Это приводит к получению моделей, которые хорошо интерполируются при наличии данных, аналогичных обучающему набору, но плохо экстраполируют .

В моделях нейронных сетей также отсутствует контекст, так что если вы использовали генеративную модель (например, RNN, обученную на последовательностях, которые создают действительные или интересные доказательства), то она может легко производить статистически приятный, но бессмысленный мусор.

Что вам понадобится, так это какой-то организационный принцип, который позволяет вам исследовать и подтверждать доказательства комбинаторным способом. На самом деле что-то вроде вашей идеи уже было сделано не раз, но я не могу найти ссылку в настоящее время.

Ничто из этого не мешает вам использовать нейронную сеть в ИИ, который ищет доказательства. В математическом ИИ могут быть места, где вам нужна хорошая эвристика, например, для проведения поиска - например, в контексте X есть суб-доказательство Y, которое может быть интересным или актуальным. Оценка вероятности - это то, что нейронная сеть может сделать как часть более широкой схемы ИИ. Это похоже на то, как нейронные сети сочетаются с обучением с подкреплением.

Может быть возможно построить вашу идею полностью из нейронных сетей в принципе. В конце концов, есть веские основания подозревать, что человеческие рассуждения работают аналогично с использованием биологических нейронов (не доказано, что искусственные могут соответствовать этому в любом случае). Однако архитектура такой системы выходит за рамки любого современного дизайна NN или учебной установки. Это определенно не будет вопросом простого добавления достаточного количества слоев и последующего ввода данных.

Нил Слэйтер
источник
Макс не ищет инструмент. Он начал с «Представьте, что у меня есть список всех проблем и доказательств» в вопросе перед редактированием. «Чрезмерное редактирование скрыло это первое слово. Он думает о выполнимости, которая является законной исследовательской деятельностью. Исследования обычно начинаются с воображение и выполнимость. Макс не единственный, кто осознает важность своего вопроса. Есть сотни людей, которые знают, что может быть способ обучить сеть, чтобы доказать, оптимизируя применение правил вывода. Изученная интуиция. Цитата: NietzscheanAI Хофштадтер обсуждает эту самую вещь
Фау-Кристиан
@FauChristian Я читаю «возможно ли», как то, достижимо ли это с использованием известных в настоящее время методов, и как можно было бы снова начать такое исследование, используя существующие подходы. Я согласен, что можно ответить, используя более теоретический угол. Это может быть интересный вопрос Мета, как ОП может пометить разницу и как мы можем подтвердить намерение
Нил Слейтер
1

Что мы знаем

Согласно странице Всемирного банка , «сегодня в мире обучается около 200 миллионов студентов высших учебных заведений по сравнению с 89 миллионами в 1998 году». По крайней мере, 1 из 100 должен был, как математическое требование, разработать доказательство для теоремы и жить как минимум 40 лет спустя.

Хотя существует не менее 20 миллионов нейронных сетей, которые могут доказать теорему, им не хватает примеров, которые ответили бы на этот вопрос утвердительно. Эти нейронные сети являются биологическими, а не искусственными, и они в основном доказали ранее доказанные теоремы, а не гипотезу Коллатца или гипотезу Римана.

Во что некоторые верят

Те, кто считает, что к устройствам, основанным на глубоком Q-обучении и внимании, будут присоединяться другие конструкции обучающей системы до тех пор, пока способности человеческого мозга не будут смоделированы и, возможно, превзойдены, скорее всего, включат теорему, доказывающую одну из этих человеческих способностей. Скорее всего, они объявят логику предикатов и умозаключения просто еще одной сложной когнитивной функцией, которая будет достигнута в искусственных системах.

Те, кто считает, что некоторые способности проникнуты в людей и являются зарезервированными способностями, могут объявить логику предикатов и логические выводы зарезервированными только для людей.

Текущее состояние прогресса

Нет академических статей, указывающих на способность доказывать даже самые простые доказательства, используя логику предикатов и умозаключения. Вполне возможно, что правительство или частное предприятие достигли определенного уровня успеха в этом, но это не было раскрыто.

Идея о том, что искусственные сети, если они будут значительно развиты, может превзойти производственные системы, системы ИИ, основанные на продуктах или правилах, в областях их наибольшей эффективности, была предложена в начале разработки ИИ. Это оспаривалось тогда и оспаривается сейчас, однако аргументы не являются математическими, поэтому нет явных признаков того, что это невозможно.

Конечно, другие когнитивные аспекты человеческой мысли являются важными целями исследования ИИ. Диалог, автоматизированное обучение, планирование, стратегический анализ и пилотирование транспортных средств - все это аспекты более высокого уровня мышления, которые требуют большего, чем DQN, и сетевые подходы, основанные на внимании, теперь могут обеспечить, но исследовательские усилия в этих областях заметны и хорошо финансируются.

Потенциальный подход

Исследование логических когнитивных способностей должно начинать с уже известных доказательств, гораздо проще, чем гипотезы, упомянутые в вопросе. Например, было доказано, что сумма двух неотрицательных целых чисел должна быть еще одним неотрицательным целым числом. В исчислении предикатов это может быть представлено в виде строки символов.

aС,бС:sзнак равноa+бsС

В нем говорится, что a и b являются членами набора счетных чисел, а s, определяемые как сумма двух, также должны быть членами набора счетных чисел. Его доказательство также можно представить в виде последовательности символьных строк исчисления предикатов первого порядка.

Не маленький исследовательский проект

Такой пример может показаться простым для того, кто прошел годы математических курсов и создал доказательства. Для ребенка это не просто, и очень трудно заставить искусственную сеть сходиться к функции, которая применяет все правила логического вывода и включает мета-правила для получения доказательства для формальной системы, такой как целочисленная арифметика.

Полные сети Тьюринга, такие как RNN, безусловно, будут иметь преимущества перед MLP (многослойными персептронами). Основанные на внимании сети могут быть разумным вариантом исследования. Есть другие, указанные в ссылках ниже.

Для исследования потребуется параллельная вычислительная платформа, поскольку входной вектор может составлять сотни килобайт. Размеры примеров и их количество трудно оценить, не затрачивая год или два на исследовательский процесс.

Сначала необходимо определить определение счетных чисел, знака плюс и знака равенства, и эти определения и ряд аксиом, постулатов, лемм и следствий должны быть частью входного примера в формальной форме, такой как предложение о доказано выше, вместе с этим предложением.

И это работа, чтобы подготовить только один пример. Вам понадобятся тысячи, чтобы обучить интуитивным знаниям о правилах вывода в глубокую сеть. (Я выбрал слово «ИНТУИТИВНЫЙ» очень сознательно по теоретическим соображениям, для объяснения которых потребовалось бы не менее ста страниц.)

Это не маленький проект, так как примерный набор данных должен иметь как минимум несколько тысяч случаев, и каждый случай, хотя и может иметь некоторую теорию, должен быть настроен так, чтобы предложение было идеально сформировано, а также был представлен необходимый набор теории. в идеальной форме на входе для каждой итерации обучения.

Я предполагаю, что команде опытных исследователей с соответствующим пониманием глубоких сетей, сходимости и исчисления предикатов потребуется около десяти лет, чтобы обучить сеть давать жизнеспособные доказательства в ответ на простые математические предложения.

Но это было бы немалым достижением

Для некоторых это может показаться абсурдным, но это будет первый раз, когда кто-то научит компьютер быть логичным. Для того чтобы научить логическое мышление организма, Сократ, природе потребовалось совсем немного времени.

Люди предполагают, что поскольку компьютер состоит из цифровых цепей, которые по замыслу выполняют логику, компьютеры логичны. Любой, кто десятилетиями занимался разработкой программного обеспечения и склонен думать глубже, чем хакерство ради удовольствия или денег, знает по-другому. Даже после тщательного программирования компьютеры не имитируют логический вывод и не могут исправить свое запрограммированное поведение для любой произвольной ошибки. Фактически, большая часть разработки программного обеспечения сегодня - это исправление ошибок.

Симуляция логической мысли была бы важным шагом к симуляции познания и более широкого спектра человеческих способностей.


Ссылки

Обучение составлению нейронных сетей для ответов на вопросы Джейкоб Андреас, Маркус Рорбах, Тревор Даррелл и Дэн Кляйн, Университет Беркли, 2016 https://arxiv.org/pdf/1601.01705.pdf

Изучение нескольких слоев представления Джеффри Э. Хинтон Кафедра компьютерных наук, Университет Торонто 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Нейронная машина Тьюринга (слайд-шоу) Автор: Алекс Грейвс, Грег Уэйн, Иво Данихелка Представлено: Тинхуэй Ван (Стив) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Нейронные машины Тьюринга (статья) Алекс Грейвс, Грег Уэйн, Иво Данихелка https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Армирование обучение, нейронные Тьюринга машины Войцех Заремба, Илья Sutskever ICLR документ конференции https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer 2016

Динамическая нейронная машина Тьюринга с непрерывной и дискретной схемами адресации Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Самонастраивающаяся нейронная нечеткая сеть логического вывода и ее приложения Онлайн-транзакции Чиа-Фенг Джуанга и Чин-Тенга Линя по нечетким системам, v6, n1 1998 г. https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Нейронные сети с последовательностью графов Юджия Ли и Ричард Земель Документ конференции ICLR 2016 https://arxiv.org/pdf/1511.05493.pdf

Строительные машины, которые учатся и думают как люди Бренден М. Лэйк, Томер Д. Ульман, Джошуа Б. Тененбаум и Сэмюэль Дж. Гершман Поведенческие и мозговые науки 2016 https://arxiv.org/pdf/1604.00289.pdf

Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом Джордж Э. Даль, Донг Ю, Ли Денг и Алекс Асеро IEEE Транзакции по обработке звука, речи и языка 2012 https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Истекает = 1534211789 & Подпись = 33QcFP0JGFeA% 2FTsqjQZpXYrIGm8% 3D & отклика Content-Disposition = рядный% 3B% 20filename% 3DContext-Dependent_Pre-Trained_Deep_Neura.pdf

Внедрение сущностей и отношений для обучения и умозаключений в базы знаний Бишан Янг1, Вэнь-Тау Йих2, Сяодун Хе2, Цзяньфэн Гао2 и Ли Денг2 Документ конференции ICLR 2015, https://arxiv.org/pdf/1412.6575.pdf

Алгоритм быстрого обучения для сетей глубокого убеждения Джеффри Э. Хинтон, Саймон Осиндеро, Йи-Уай Тех (сообщает Ян Ле Кун) Нейронные вычисления 18 2006 г. http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Networks / hinton1 * .pdf

FINN: основа для быстрого, масштабируемого бинаризованного вывода нейронной сети Яман Умуроглу и др. 2016 https://arxiv.org/pdf/1612.07119.pdf

От машинного обучения к машинному мышлению Леон Ботту 2/8/2011 https://arxiv.org/pdf/1102.1808.pdf

Глубокое обучение Yann LeCun1,2, Йошуа Бенгио3 и Джеффри Хинтон4,5 Nature vol 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

Дуглас Дасеко
источник
-1

Это возможно, но, вероятно, не очень хорошая идея.

Логическое доказательство является одной из самых старых областей ИИ, и существуют специальные методы, которые не нужно обучать, и которые более надежны, чем подход нейронной сети, поскольку они не полагаются на статистические рассуждения. и вместо этого используйте друга математика: дедуктивное рассуждение.

Основное поле называется « Автоматическое доказательство теорем », и оно достаточно старое, чтобы немного кальцинироваться как область исследований. Новшеств не так много, но некоторые люди все еще работают над этим.

Основная идея заключается в том, что доказательство теоремы - это просто классический или эвристический управляемый поиск: вы начинаете с состояния, состоящего из набора принятых предпосылок. Затем вы применяете любое допустимое логическое правило вывода для создания новых предпосылок, которые также должны быть истинными, расширяя набор знаний, которыми вы обладаете. В конце концов, вы можете доказать желаемую предпосылку, либо с помощью перечислительных поисков, таких как поиск в ширину или итеративное углубление , либо с помощью чего-то вроде A * с эвристикой, специфичной для предметной области. Многие решатели также используют только одно логическое правило ( объединение ), потому что оно завершено и уменьшает коэффициент ветвления поиска.

Джон Дусетт
источник
Нехватка людей, все еще работающих над этим, может быть причиной отсутствия инноваций. Мы не должны отговаривать Макса так быстро, тем более что автоматизированная работа по доказательству теорем в первые дни LISP не применяла более широкий набор доступных на данный момент методов. Зачем? Это то, о чем я говорил в другом комментарии. Люди из производственной системы мало общались с людьми-перцептронами. Были оскорбления, но участвующие университеты удалили их из поля зрения общественности.
FauChristian