Современное состояние обучения на основе данных 69 года

16

Я пытаюсь понять контекст знаменитой книги Мински и Пейперта «Перцептроны» 1969 года, столь критичной для нейронных сетей.

Насколько я знаю, не было никаких других общих алгоритмов обучения под наблюдением, за исключением персептрона: деревья решений начали становиться действительно полезными только в конце 70-х, случайные леса и SVM - 90-х. Кажется, что метод складного ножа был уже известен, но не кросс-валидация (70-е годы) или бутстрап (1979?).

Википедия говорит, что классические статистические основы Неймана-Пирсона и Фишера все еще были в разногласиях в 50-х годах, несмотря на то, что первые попытки описания гибридной теории были уже в 40-х годах.

Поэтому мой вопрос: каковы были современные методы решения общих задач прогнозирования по данным?

liori
источник
6
Логистическая регрессия начала использоваться, как сегодня, в конце 70-х годов, см. Cramer, JS (2002). «Истоки логистической регрессии», с. 12, paper.tinbergen.nl/02119.pdf
Тим
Линейная регрессия, вероятно, является «универсальным алгоритмом обучения под наблюдением» и возникла в начале 1800-х годов; регрессия пробита, по крайней мере, в некоторой форме, по-видимому, возникла в 1930-х годах . Вы имеете в виду что-то, в частности, «универсальный» здесь?
Дугал
@Dougal: просто «обнаружено, что оно применимо к большому количеству проблем в разных областях», а не «предназначено для решения конкретной проблемы». Я пытаюсь понять, какие методы будут использовать статистика или ученый ИИ в 60-х годах, когда столкнутся с новой неизвестной проблемой без предварительной работы, когда самый простой подход (как, я думаю, линейная регрессия?) Не работает и поэтому поиск более сложных инструментов оправдан. Например, случайный лес в настоящее время является одним из таких алгоритмов: они достаточно хорошо работают с множеством наборов данных из различных областей.
августа
Да, конечно. Возможно, стоит отметить, что регрессия пробита на самом деле, вероятно, лучшая модель классификации общего назначения, чем исходные персептроны. Был ли он использован как таковой в то время, я не знаю. Перцептроны в то время считались разными, потому что они были связаны с алгоритмом оптимизации, подобным SGD, что, вероятно, сделало их более масштабируемыми для компьютеров того времени, чем для пробита, хотя, конечно, сегодня мы понимаем, что эти выборы независимы.
Дугал
1
Для тех, кто все еще интересуется этой темой: я нашел интересное исследование из области социологии науки на тему споров о персептронах в 60-х годах: Олазаран, «Официальная история споров о персептронах». Текст не отвечает на поставленный здесь вопрос, но предоставляет социологический контекст для книги Минского и Паперта, который мне кажется сейчас более важным, чем фактическое состояние науки.
Лиори

Ответы:

12

Мне было любопытно, поэтому я немного покопался. Я был удивлен, обнаружив, что узнаваемые версии многих распространенных алгоритмов классификации уже были доступны в 1969 году или около того. Ссылки и цитаты приведены ниже.

Стоит отметить, что исследования ИИ не всегда были так сосредоточены на классификации. Был большой интерес к планированию и символическим рассуждениям, которые больше не в моде, и найти маркированные данные было намного сложнее. В то же время не все эти статьи могли быть широко доступны: например, работа с прото-SVM была в основном опубликована на русском языке. Таким образом, это может переоценить то, что средний ученый знал о классификации в 1969 году.


Дискриминантный анализ

В статье 1936 года в « Летописи евгеники» Фишер описал процедуру нахождения линейной функции, которая различает три вида цветков ириса, исходя из размеров их лепестков и чашелистиков. В этой статье упоминается, что Фишер уже применил аналогичную технику для прогнозирования пола человеческих мандибул (челюстных костей), выкопанных в Египте, в сотрудничестве с Е. С. Мартином и Карлом Пирсоном ( jstor ), а также в отдельном проекте по измерению черепа. с мисс Милдред Барнард (которую я не смог отследить).

Логистическая регрессия

Сама логистическая функция известна с 19-го века, но в основном как модель для насыщающих процессов, таких как рост населения или биохимические реакции. Тим ссылается на статью JS Cramer выше, которая является хорошей историей ее первых дней. Однако к 1969 году Кокс опубликовал первое издание « Анализ двоичных данных» . Я не смог найти оригинал, но более поздняя редакция содержит целую главу об использовании логистической регрессии для выполнения классификации. Например:

Yзнак равно0,1Икс'YY

К

КК

Нейронные сети

Розенблат опубликовала технический отчет , описывающий персептрон в 1957 году и последовал за ним с книгой , Принципы нейродинамики в 1962 году Continuous версии обратного распространения были примерно с начала 1960 - х годов, включая работу Келли , Брайсон и Брайсон & Ho (пересмотренная в 1975, но оригинал с 1969. Однако, это не было применено к нейронным сетям, пока немного позже, и методы для обучения очень глубоким сетям намного более недавно. У этой статьи ученого по глубокому обучению есть больше информации.

Статистические методы

Я подозреваю, что использование правила Байеса для классификации было обнаружено и переоткрыто много раз - это довольно естественное следствие самого правила. Теория обнаружения сигнала разработала количественную основу для принятия решения, является ли данный вход «сигналом» или шумом. Некоторые из них появились после исследований РЛС после Второй мировой войны, но они были быстро адаптированы для экспериментов по восприятию (например, Грин и Светс ). Я не знаю, кто обнаружил, что допущение независимости между предикторами работает хорошо, но работа начала 1970-х, похоже, использовала эту идею, как показано в этой статье . Кстати, в этой статье также указывается, что наивного Байеса когда-то называли «идиотом Байеса»!

Опорные векторные машины

В 1962 году Вапник и Червоненкис описали «Обобщенный портретный алгоритм» ( ужасное сканирование, извините ), который выглядит как особый случай машины опорных векторов (или фактически, одноклассного SVM). Червоненкис написал статью под названием «Ранняя история машин опорных векторов», в которой более подробно описывается эта и последующая работа. Хитрость ядра (ядер в качестве внутренних продуктов) был описан Айзерман, Браверман и Розоноэр в 1964 году svms.org имеет немного больше об истории машины опорных векторов здесь .

Мэтт Краузе
источник
2
Анализ временных рядов также решал некоторые интересные проблемы. Фильтры ARMA и Kalman сделали хороший пробег в 50-х и 60-х годах.
EngrStudent - Восстановить Монику
1
Интересный! Я не знаю так много об этом или его истории, но я бы с радостью приветствовал ответ, если бы вы его написали!
Мэтт Краузе
3

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ : Этот ответ неполон, но у меня нет времени, чтобы сделать его текущим прямо сейчас. Я надеюсь поработать над этим позже на этой неделе.


Вопрос:
каковы были современные методы решения общих задач прогнозирования по данным примерно 1969 года?

Примечание: это не будет повторять отличный ответ «Мэтт Краузе».

«Состояние искусства» означает «лучший и самый современный», но не обязательно сводится к практике как отраслевой норме. В отличие от этого, патентное законодательство США выглядит как «неочевидное», как оно определяется «обычным специалистом в данной области». «Современное состояние» 1969 года, вероятно, было запатентовано в течение следующего десятилетия.

Весьма вероятно, что «лучшие и самые яркие» подходы 1969 года были использованы или оценены для использования в ECHELON (1) (2) . Это также покажет в оценке другую, вполне математически способную сверхдержаву той эпохи - СССР. (3) На изготовление спутника у меня уходит несколько лет, и поэтому можно было бы ожидать, что технология или контент для следующих ~ 5 лет спутников связи, телеметрии или разведки покажут современное состояние 1969 года. Одним из примеров является метеорологический спутник "Метеор-2" был запущен в 1967 году, а предварительный проект завершен в 1971 году. (4) Спектрометрическое и актинометрическое проектирование полезных нагрузок основывается на современных возможностях обработки данных и предполагаемой обработке данных «на ближайшее будущее» того времени. Обработка данных такого рода - это то, где нужно искать лучшие практики периода.

Просмотр «Журнала теории и приложений оптимизации» работал уже несколько лет, и его содержание доступно. (5) Рассмотрим эту (6) оценку оптимальных оценок, а эту - для рекурсивных оценок. (7)

Проект SETI, начатый в 1970-х годах, вероятно, использовал более бюджетные технологии и методы, которые были старше, чтобы соответствовать технологиям того времени. Исследование ранних методов SETI может также говорить о том, что считалось ведущим около 1969 года. Одним из вероятных кандидатов является предвестник « чемоданчика SETI ». «Чемодан SETI» использовал DSP для построения автокорреляционных приемников в узкополосных каналах ~ 130 тыс. Люди SETI особенно стремились выполнить анализ спектра. Этот подход был впервые использован в автономном режиме для обработки данных Aricebo. Позднее он был подключен к радиотелескопу Aricebo в 1978 году для получения данных в реальном времени, и результаты были опубликованы в том же году . Фактический Suitecase-SETI был завершен в 1982 году. Здесь (ссылка) это блок-схема, показывающая процесс

Подход заключался в использовании автономных длинных преобразований Фурье (~ 64 тыс. Выборок) для поиска сегментов полосы пропускания, включая обработку ЛЧМ и компенсацию в реальном времени для доплеровского сдвига. Подход "не новый", и были предоставлены ссылки, в том числе: см., Например,

A. G. W. Cameron, Ed., 
In- terstellar Communication 
(Benjamin, New York,1963); 

I. S. Shklovskii and C. Sagan, 
In-telligent Life in the Universe 
(Holden-Day, San Francisco, 1966); 

C. Sagan, Ed., 
Communication with Extraterrestrial Intelligence 
(MIT Press, Cambridge, Mass., 1973); 
P. Morrison, J.

B. M. Oliver and J. Billingham, 
"Project Cyclops: A Design Study of a System for Detecting Extraterrestrial Intelligent Life," 
NASA Contract. Rep. CR114445 (1973). 

Инструменты, используемые для прогнозирования следующего состояния с учетом предыдущего состояния, которые были популярны в то время, включают:

  • Фильтры Калмана (и производные) (Вейнер, Бьюси, нелинейные ...)
  • Методы временных рядов (и производных)
  • Методы частотной области (Фурье), включая фильтрацию и усиление

Общие «ключевые слова» (или модные слова) включают «сопряженное, вариационное, градиентное, оптимальное, второго порядка и сопряженное».

Предпосылка фильтра Калмана - оптимальное смешивание данных реального мира с аналитической и прогнозной моделью. Они использовались для того, чтобы ракеты попадали в движущуюся цель.

оборота EngrStudent
источник
Спасибо, что написали это - мне нравится подход, основанный на приложениях, который вы выбрали!
Мэтт Краузе
@MattKrause - мне еще есть, что добавить. Я полагал, что подход, основанный на приложениях, в этом случае послужит «археологии математики». Посмотрим. Эта работа заставляет меня хотеть создать «чемодан-SETI» и использовать его, чтобы осмотреть мою человеческую среду на всю жизнь, просто чтобы понять, что делали инструменты 50 лет.
EngrStudent - Восстановить Монику