Нужен ли выбор переменных для прогнозного моделирования в 2016 году?

68

Этот вопрос был задан в CV несколько лет назад, и кажется, что стоит сделать репост в свете 1) лучшей вычислительной технологии на порядок (например, параллельные вычисления, HPC и т. Д.) И 2) более новой техники, например [3].

Сначала немного контекста. Давайте предположим, что целью является не проверка гипотез, не оценка эффекта, а прогнозирование невидимого набора тестов. Таким образом, никакой пользы от толкования нет. Во-вторых, допустим, вы не можете исключить актуальность какого-либо предиктора при рассмотрении вопроса, т.е. все они кажутся правдоподобными по отдельности или в сочетании с другими предикторами. В-третьих, вы сталкиваетесь с (сотнями) миллионами предсказателей. В-четвертых, допустим, у вас есть доступ к AWS с неограниченным бюджетом, поэтому вычислительная мощность не является ограничением.

Обычные причины выбора переменных: 1) эффективность; быстрее подгонять под меньшую модель и дешевле собирать меньше предикторов, 2) интерпретация; Знание «важных» переменных дает представление о базовом процессе [1].

В настоящее время широко известно, что многие методы выбора переменных неэффективны и часто просто опасны (например, ступенчатая регрессия вперед) [2].

Во-вторых, если выбранная модель хороша, не нужно вообще сокращать список предикторов. Модель должна сделать это за вас. Хорошим примером является лассо, которое присваивает нулевой коэффициент всем нерелевантным переменным.

Я знаю, что некоторые люди выступают за использование модели «слон», т.е. бросить все мыслимые предикторы в соответствие и запустить с ним [2].

Есть ли фундаментальная причина для выбора переменных, если целью является точность прогнозирования?

[1] Reunanen, J. (2003). Переоснащение при сравнении методов выбора переменных. Журнал исследований машинного обучения, 3, 1371-1382.

[2] Харрелл Ф. (2015). Стратегии регрессионного моделирования: с приложениями к линейным моделям, логистической и порядковой регрессии и анализу выживаемости. Springer.

[3] Taylor, J. & Tibshirani, RJ (2015). Статистическое обучение и выборочный вывод. Известия Национальной академии наук, 112 (25), 7629-7634.

[4] Чжоу Дж., Фостер Д., Стайн Р. и Унгар Л. (2005, август). Потоковый выбор функций с использованием альфа-инвестирования. В материалах одиннадцатой международной конференции ACM SIGKDD, посвященной открытию знаний в области интеллектуального анализа данных (стр. 384-393). ACM.

horaceT
источник
6
Хороший первый вопрос - он может быть закрыт как дубликат, но я ценю, что вы приложили много усилий, чтобы объяснить, что, по вашему мнению, отличает его. Я бы посоветовал отредактировать заголовок, чтобы лучше было ориентироваться только на прогноз
Серебряная рыба
5
Если этот вопрос уже задавался, но вы считаете важным опубликовать его через некоторое время, то, возможно, вы могли бы предоставить ссылку на предыдущий вопрос? Было бы интересно сравнить предыдущие ответы.
Тим
1
@ qbert65536 С одной стороны, ты не идешь. Выбор характеристик по своей сути ненадежен.
horaceT
8
Методы, которые автоматически выбирают разреженное подмножество объектов (например, модели со штрафом l1), также выполняют выбор объектов. Поэтому критический вопрос не в том, «выбор функций хорош / плох», а в том, какие свойства отличают хорошие методы выбора функций от плохих? ». Выполнение совместно с оценкой параметров (как в лассо) является одним свойством, и мы могли бы спросить, имеет ли это значение (наряду со многими другими свойствами).
user20160
2
@ToussaintLouverture Так как я отправил этот вопрос год назад, у меня есть вторая (и третья) мысль. Теперь я считаю, что уместным вопросом является то, насколько важно направить усилия на выбор переменных, а не на выбор моделей, чтобы выбрать более способную модель, которая обобщает все особенности эксперимента.
horaceT

Ответы:

37

В течение многих лет ходили слухи, что Google использует все доступные функции для построения своих алгоритмов прогнозирования. Однако до настоящего времени не было никаких заявлений об отказе от ответственности, объяснений или официальных документов, которые разъясняют и / или оспаривают этот слух. Даже их опубликованные патенты не помогают в понимании. В результате, насколько мне известно, никто за пределами Google не знает, что они делают.

/ * Обновление в сентябре 2019 года, евангелист Google Tensorflow, официально заявил, что инженеры Google регулярно оценивают более 5 миллиардов параметров для текущей версии PageRank . * /

Как отмечает OP, одна из самых больших проблем в прогнозном моделировании - это связь между классическим тестированием гипотез и тщательной спецификацией модели против чистого анализа данных. Классически обученные могут довольно догматично отнестись к необходимости «строгости» в дизайне и разработке моделей. Дело в том, что при столкновении с огромным числом кандидатов-предикторов и множеством возможных целей или зависимых переменных классическая структура не работает, не выполняет и не дает полезных рекомендаций. Многочисленные недавние статьи описывают эту дилемму из блестящей статьи Chattopadhyay и Lipson Data Smashing: выявление скрытого порядка в данных http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Основным узким местом является то, что большинство современных алгоритмов сравнения данных полагаются на человека-специалиста, чтобы определить, какие «особенности» данных имеют значение для сравнения. Здесь мы предлагаем новый принцип оценки сходства между источниками произвольных потоков данных, не используя ни знание предметной области, ни обучение.

К прошлогоднему докладу AER о проблемах политики прогнозирования Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, где аргументация в пользу извлечения данных и прогнозирования в качестве полезных инструментов при выработке экономической политики, приводя примеры, когда «причинно-следственная связь не является центральной или даже необходимой. "

Дело в том, что более крупный вопрос стоимостью 64 000 долл. США - это широкий сдвиг в мышлении и вызовы классической концепции проверки гипотез, подразумеваемые, например, в этом симпозиуме Edge.org по «устаревшему» научному мышлению https://www.edge.org/ ответы / что-научная-идея-готова-для-выхода на пенсию, а также недавняя статья Эрика Бейнхокера о «новой экономике», в которой представлены некоторые радикальные предложения по интеграции самых разных дисциплин, таких как поведенческая экономика, теория сложности, прогнозирующая модель теория развития, сети и портфеля как платформа для реализации и принятия политики https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Излишне говорить, что эти проблемы выходят далеко за рамки просто экономических проблем и предполагают, что мы претерпеваем фундаментальный сдвиг в научных парадигмах. Сдвигающие взгляды столь же фундаментальны, как и различия между редукционистским, бритвой Оккама, подобным построению модели, против обширного принципа полноты Эпикура или множественными объяснениями, в которых грубо сказано, что если несколько результатов что-то объясняют, сохраните их все ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Конечно, такие ребята, как Бейнхокер, совершенно не обременены практическими проблемами, касающимися прикладных, статистических решений этой развивающейся парадигмы. Что касается мельчайших вопросов выбора переменных сверхвысокой размерности, ОП относительно неспецифичен в отношении жизнеспособных подходов к построению моделей, которые могут использовать, например, Лассо, LAR, пошаговые алгоритмы или «модели слонов», которые используют всю доступную информацию. Реальность такова, что даже с AWS или суперкомпьютером вы не можете использовать всю доступную информацию одновременно - просто не хватает ОЗУ для загрузки всего этого. Что это значит? Обходные пути были предложены, например, открытие NSF в сложных или массивных наборах данных: общие статистические темы«разделяй и властвуй» алгоритмы для массивного анализа данных, например, Wang и др., «Обзор статистических методов и вычислений для больших данных», http://arxiv.org/pdf/1502.07989.pdf, а также Leskovec и др. книга Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datts

В настоящее время существуют буквально сотни, если не тысячи статей, посвященных различным аспектам этих задач, и все они предлагают в качестве своей основы широко отличающиеся аналитические движки от алгоритмов «разделяй и властвуй»; неконтролируемые модели «глубокого обучения»; теория случайных матриц, применяемая для построения массивных ковариаций; Байесовские тензорные модели для классической, контролируемой логистической регрессии и многое другое. Примерно пятнадцать лет назад дебаты были в основном сосредоточены на вопросах, касающихся относительных преимуществ иерархических байесовских решений по сравнению с частыми моделями конечных смесей. В документе, посвященном этим вопросам, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfпришли к выводу, что различные теоретические подходы на практике дали в значительной степени эквивалентные результаты, за исключением проблем, связанных с разреженными и / или крупномасштабными данными, где модели HB имели преимущество. Сегодня, с появлением обходных путей D & C, любые модели арбитража HB, которые могли иметь историческое значение, были исключены.

Базовая логика этих обходных путей D & C, в общем, является расширением известной техники случайных лесов Бреймана, которая основывалась на повторной выборке наблюдений и характеристик при начальной загрузке. Брейман выполнял свою работу в конце 90-х годов на одном процессоре, когда огромные данные означали несколько десятков концертов и пару тысяч функций. На сегодняшних многоядерных многоядерных платформах можно запускать алгоритмы, анализирующие терабайты данных, содержащих десятки миллионов функций, создавая миллионы «РЧ» мини-моделей за несколько часов.

Есть много важных вопросов, выходящих из всего этого. Нужно иметь дело с потерей точности из-за аппроксимирующей природы этих обходных путей. Эта проблема была рассмотрена Ченом и Се в статье « Подход« разделяй и властвуй »для анализа необычайно больших данных» http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf, в которой они пришли к выводу что аппроксимации существенно отличаются от моделей «полной информации».

Вторая проблема, которая, насколько мне известно, не была должным образом рассмотрена в литературе, связана с тем, что делается с результатами (то есть, «параметрами») из потенциально миллионов прогнозирующих мини-моделей после обходных путей. были свернуты и обобщены. Другими словами, как можно выполнить что-то столь же простое, как «подсчет» новых данных с этими результатами? Должны ли быть сохранены и сохранены коэффициенты мини-модели, или можно просто перезапустить алгоритм D & C для новых данных?

В своей книге « Numbers Rule Your World» Кайзер Фунг описывает дилемму, с которой столкнулся Netflix, представив ансамбль всего из 104 моделей, переданных победителям конкурса. Победители действительно минимизировали MSE по сравнению со всеми остальными конкурентами, но это привело к повышению точности лишь на несколько десятичных разрядов по 5-балльной шкале Лайкерта, используемой их системой рекомендации фильмов. Кроме того, ИТ-обслуживание, необходимое для этого ансамбля моделей, стоит намного больше, чем любая экономия, наблюдаемая в результате «повышения» точности моделей.

Тогда возникает целый вопрос о том, возможна ли даже «оптимизация» с информацией такого масштаба. Например, Эммануэль Дерман, физик и финансовый инженер, в своей книге « Моя жизнь как квант» предполагает, что оптимизация - это несостоятельный миф, по крайней мере, в финансовой инженерии.

Наконец, важные вопросы, касающиеся относительной важности признаков с огромным количеством признаков, еще предстоит решить.

Нет простых ответов на вопросы, касающиеся необходимости выбора переменных, и новые вызовы, открываемые нынешними эпикурейскими обходными путями, еще предстоит решить. Суть в том, что сейчас мы все ученые данных.

**** РЕДАКТИРОВАТЬ *** Рекомендации

  1. Chattopadhyay I, Lipson H. 2014 Разрушение данных: раскрытие скрытого порядка в данных. JR Soc. Интерфейс 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Кляйнберг, Джон, Йенс Людвиг, Сендхил Малленатан и Зиад Обермейер. 2015. «Проблемы прогнозной политики». American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, 2014 Ежегодный вопрос: КАКАЯ НАУЧНАЯ ИДЕЯ ГОТОВА К УСТРАНЕНИЮ? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Эрик Бейнхокер, Как глубокие изменения в экономике влияют на левые и правые дебаты Не имеет значения, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Эпикур принцип множественных объяснений: сохранить все модели. Википедия https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Обнаружение в сложных или массивных наборах данных: общие статистические темы, семинар, финансируемый Национальным научным фондом, 16-17 октября 2007 г. https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Статистические методы и вычисления для больших данных, рабочий документ Чун Вана, Минг-Хуэя Чена, Элизабет Скифано, Цзин Ву и Джун Яна, 29 октября 2015 г. http://arxiv.org/pdf/1502.07989.pdf

  8. Юре Лесковец, Ананд Раджараман, Джеффри Дэвид Уллман, Mining of Massive Datasets, издательство Кембриджского университета; 2 издание (29 декабря 2014 г.) ISBN: 978-1107077232

  9. Ковариационные матрицы для больших выборок и анализ многомерных данных (ряд Кембриджа по статистической и вероятностной математике), автор Jianfeng Yao, Shurong Zheng, Zhidong Bai, издательство Cambridge University Press; 1 издание (30 марта 2015 г.) ISBN: 978-1107065178

  10. Рик Л. Эндрюс, Эндрю Эйнсли и IMRAN S. CURRIM, Эмпирическое сравнение моделей Logit Choice с дискретными и непрерывными представлениями неоднородности, Journal of Marketing Research, 479 Vol. XXXIX (ноябрь 2002 г.), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Подход «разделяй и властвуй» для анализа необычайно больших данных, Сюэй Чен и Минге Се, Технический отчет DIMACS 2012-01, январь 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Кайзер Фунг, Числа управляют вашим миром: скрытое влияние вероятностей и статистики на все, что вы делаете, McGraw-Hill Education; 1 издание (15 февраля 2010 г.) ISBN: 978-0071626538

  13. Эммануэль Дерман, Моя жизнь как квант: размышления о физике и финансах, Wiley; 1 издание (11 января 2016 г.) ISBN: 978-0470192733

* Обновление в ноябре 2017 года *

Книга Натана Кутца 2013 года « Моделирование на основе данных и научные вычисления: методы для сложных систем и больших данных» представляет собой математическую и PDE-ориентированную экскурсию по выбору переменных, а также методам и инструментам сокращения измерений. Отличное 1-часовое введение в его мышление можно найти в этом видео на YouTube в июне 2017 г. Обнаружение управляемых данными динамических систем и PDE . В нем он делает ссылки на последние разработки в этой области. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

Майк Хантер
источник
1
В летней школе машинного обучения пару лет назад один из Google выступил с докладом (забыл имя). Он упомянул, что пара (бинарная классификация) моделей в производстве включает в себя что-то вроде ~ 200 миллионов функций, обученных партиями на ~ 30 Tb наборов данных; большинство из них, вероятно, являются двоичными функциями. Я не помню, чтобы он когда-либо упоминал выбор переменных.
horaceT
1
Замечательные комментарии (хотя часть из них пошла по касательной). Мне особенно нравится точка зрения, что многие старомодные идеи нуждаются в пересмотре в эпоху больших данных.
horaceT
1
@horaceT Очень интересно. По крайней мере, это подтверждает слух. Благодарю. Какая программа ML была это?
Майк Хантер
1
MLSS 2012 в Калифорнийском университете в Санта-Круз. Докладчиком был Тушар Чандра, вот слайды, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT
2
@Glen_b Спасибо за комментарии. Я думал, что предоставил имена и названия для ссылок именно из-за проблемы неработающей ссылки. В любом случае, я добавлю справочный раздел в конце. Дайте мне знать, если чего-то не хватает.
Майк Хантер
14

С точки зрения прогнозирования вам, вероятно, нужно подумать о том, как быстро модель узнает важные функции. Даже если подумать об OLS, это даст вам что-то вроде выбора модели с учетом достаточного количества данных. Но мы знаем, что оно не сходится к этому решению достаточно быстро - поэтому мы ищем что-то лучшее.

Большинство методов делают предположение о типе бета / коэффициентов, которые будут встречаться (например, предварительное распределение в байесовской модели). Они работают лучше всего, когда эти предположения верны. Например, регрессия гребня / лассо предполагает, что большинство бета имеют одинаковую шкалу с большинством близких к нулю. Они не будут работать так же хорошо для регрессий «иголки в стоге сена», где большинство бета нулевые, а некоторые бета очень велики (т. Е. Масштабы очень разные). Выбор функций здесь может работать лучше - лассо может застрять между уменьшающимся шумом и оставлением сигнала без изменений. Выбор функции более изменчив - эффект - «сигнал» или «шум».

С точки зрения принятия решения - вам нужно иметь некоторое представление о том, какие переменные предиктора у вас есть. У вас есть несколько действительно хороших? Или все переменные слабы? Это будет управлять профилем бета-версий, которые у вас будут. И какие методы штрафа / выбора вы используете (лошади для курсов и все такое).

Выбор характеристик также неплох, но некоторые из более старых приближений из-за вычислительных ограничений больше не хороши (пошагово, вперед). Усреднение модели с использованием выбора признаков (все 1 модели, 2 модели и т. Д., Взвешенные по их производительности) довольно хорошо справятся с прогнозированием. Но это, по сути, наказывает бета-версии весом, придаваемым моделям, в которых эта переменная исключена - просто не напрямую - и не в виде выпуклой задачи оптимизации.

probabilityislogic
источник
12

Я даю вам перспективу промышленности.

Отрасли не любят тратить деньги на датчики и системы мониторинга, которые они не знают, какую выгоду они получат.

Например, я не хочу называть это имя, поэтому представьте себе компонент с 10 датчиками, собирающими данные каждую минуту. Владелец актива поворачивается ко мне и спрашивает, насколько хорошо вы можете предсказать поведение моего компонента с этими данными с 10 датчиков? Затем они проводят анализ затрат и выгод.

Затем они имеют один и тот же компонент с 20 датчиками, они снова спрашивают меня, насколько хорошо вы можете предсказать поведение моего компонента с этими данными из 20 датчиков? Они проводят еще один анализ затрат и выгод.

В каждом из этих случаев они сравнивают выгоду с инвестиционными затратами на установку датчиков. (Это не просто добавление сенсора за 10 $ к компоненту. Многие факторы играют роль). Вот где может быть полезен анализ выбора переменных.

PeyM87
источник
1
Хорошая точка зрения. Но вы не будете знать, что 10 датчиков достаточно хороши, или вам понадобятся еще 10, пока у вас не
появятся
Правда, и вы всегда можете спекулировать на основании некоторых исследований. Вы устанавливаете каждый датчик с целью, чтобы избежать сбоев. Если частота отказов низкая или вы уже охватили важные части компонента, вы знаете, что добавление 1 датчика не принесет большой отдачи. Таким образом, вам не нужно устанавливать эти датчики, собирать данные и проводить исследование, чтобы узнать, действительно ли эти дополнительные датчики достаточно хороши.
PeyM87
«Датчики» могут не означать «датчики» - в моей компании мы подписываемся на все наши данные, поэтому действительно есть возможность обнаружить функции, которые ни на что не влияют, и сократить расходы, удалив их из службы подписки (для ясности, ставки подписки рассчитаны на более высоком уровне, чем отдельные столбцы, но, безусловно, правдоподобно представить элемент подписки, вносящий одну особенность в окончательную модель и способный прекратить работу, если она не улучшит производительность)
Роберт де Грааф
9

Как часть алгоритма для изучения чисто прогнозирующей модели, выбор переменных не обязательно плох с точки зрения производительности и не является автоматически опасным. Однако есть некоторые проблемы, о которых нужно знать.

Е(Yя|Икся)знак равноИксяTβ
язнак равно1,...,NИксяβп
ИксЕ(Y|Иксзнак равноИкс)знак равноИксTβ,
YИксзнак равноИксβ

Кзнак равно1,...,мин(N,п)КК

СпСп

Кβ-

Методы усадки, такие как регрессия гребня и лассо, могут обеспечить хороший компромисс между смещением и дисперсией без явного выбора переменной. Однако, как упоминает ОП, Лассо неявно выбирает переменную. На самом деле это не модель, а метод подбора модели, который делает выбор переменных. С этой точки зрения выбор переменных (неявный или явный) является просто частью метода подгонки модели к данным, и его следует рассматривать как таковой.

Алгоритмы для вычисления оценки Лассо могут выиграть от выбора переменных (или скрининга). В разделе « Статистическое обучение с редкостью: лассо и обобщения» , раздел 5.10, описывается, насколько glmnetполезен скрининг, реализованный в нем . Это может привести к значительно более быстрому вычислению оценки лассо.

---

Изменить: так как я написал этот ответ, есть статья о конкретном приложении, которое я имел в виду. R-код для воспроизведения результатов в статье доступен.

--

Конечно, всегда важно, чтобы мы рассматривали выбор переменных как часть метода оценки. Опасность заключается в том, чтобы полагать, что выбор переменных работает как оракул и определяет правильный набор переменных. Если мы считаем это и действуем так, как будто переменные не были выбраны на основе данных, то мы рискуем совершить ошибки.

NRH
источник
1
Мне не ясно, как выбор переменных позволил подобрать более сложную модель. При выборе переменной вы все равно оцениваете такое же большое количество параметров; Вы просто оцениваете некоторые из них как ноль. Стабильность условной модели, установленной после выбора переменной, может быть миражом.
Фрэнк Харрелл
1
@Harrell, в конкретном примере выбор переменной осуществлялся с использованием лассо в сочетании с выбором стабильности в модели, где все переменные вводились линейно. Затем была установлена ​​гамма с использованием выбранных переменных. Я полностью согласен с тем, что выбор переменных - это просто оценка некоторых параметров до нуля, и приложение сделало именно это в модели с помощью двухступенчатой ​​процедуры. Я уверен, что Gamsel обеспечивает более систематический подход. Моя точка зрения заключалась в том, что без такого подхода выбор переменных может быть полезным ярлыком.
NRH
1
Использование непенализованного метода для повторного подбора переменных, выбранных на более ранней стадии штрафования, не подходит. Это было бы существенно предвзятым. И выбор непенализованных переменных не является хорошим способом.
Фрэнк Харрелл
1
Выбор стабильности более консервативен, чем выбор переменных с использованием лассо и повторной подгонки без штрафных санкций. Последний, как и ожидалось, работал не очень хорошо с точки зрения прогнозирования (как мера путем перекрестной проверки). Когда я через перекрестную проверку в конкретном случае нахожу, что выбор переменной + гам дает лучшую прогностическую эффективность, чем оценка гребня или лассо, то это моя мера того, хороша ли процедура.
NRH
1
Пожалуйста, определите «выбор стабильности». И переоснащение без штрафных санкций является антиконсервативным.
Фрэнк Харрелл
4

Позвольте мне прокомментировать утверждение: «... подгонки k параметров к n <k наблюдениям просто не произойдет».

В хемометрике нас часто интересуют прогностические модели, и часто встречается ситуация k >> n (например, в спектроскопических данных). Эта проблема обычно решается простым проецированием наблюдений в низкоразмерное подпространство a, где a <n, перед регрессией (например, регрессия главного компонента). С использованием регрессии частичных наименьших квадратов проекция и регрессия выполняются одновременно, что способствует повышению качества прогнозирования. Упомянутые методы находят оптимальные псевдообращения к (сингулярной) ковариационной или корреляционной матрице, например, путем разложения по сингулярным числам.

Опыт показывает, что предсказательная производительность многомерных моделей увеличивается при удалении зашумленных переменных. Таким образом, даже если мы - значимым образом - способны оценить k параметров, имеющих только n уравнений (n <k), мы стремимся к экономным моделям. Для этой цели актуален выбор переменных, и этому предмету посвящено много химиометрической литературы.

В то время как прогнозирование является важной целью, методы прогнозирования в то же время дают ценную информацию, например, о структуре данных и релевантности переменных. Этому способствуют в основном разнообразные модельные участки, например, оценки, нагрузки, остатки и т. Д.

Хемометрические технологии широко используются, например, в промышленности, где действительно важны надежные и точные прогнозы.

Карстен Риддер
источник
3

В нескольких известных случаях, да, выбор переменных не требуется. Именно по этой причине глубокое обучение стало немного преувеличено.

Например, когда извилистая нейронная сеть ( http://cs231n.github.io/convolutional-networks/ ) пытается предсказать, содержит ли центрированное изображение человеческое лицо, углы изображения имеют тенденцию иметь минимальное прогнозирующее значение. Традиционное моделирование и выбор переменных позволят моделисту удалять угловые пиксели в качестве предикторов; однако извилистая нейронная сеть достаточно умна, чтобы автоматически отбрасывать эти предикторы. Это относится к большинству моделей глубокого обучения, которые пытаются предсказать присутствие какого-либо объекта на изображении (например, автомобили с автоматическим управлением, «предсказывающие» разметку полосы движения, препятствия или другие автомобили в кадрах потокового видео на борту).

Глубокое обучение, вероятно, излишне для многих традиционных проблем, таких как, когда наборы данных невелики или когда знание предметной области обильно, поэтому традиционный выбор переменных, вероятно, будет оставаться актуальным в течение длительного времени, по крайней мере, в некоторых областях. Тем не менее, глубокое обучение прекрасно, когда вы хотите собрать «довольно хорошее» решение с минимальным вмешательством человека. У меня может уйти много часов на то, чтобы изготовить вручную и выбрать предикторы для распознавания рукописных цифр на изображениях, но благодаря извилистой нейронной сети и выбору с нулевой переменной, я могу получить современную модель всего за 20 минут, используя Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

Райан Зотти
источник
3
Мне действительно нравится эта перспектива DL. В Computer Vision матрицы данных, с которыми вы сталкиваетесь, представляют собой плоские 2D-изображения, где значение определенного столбца зависит от наблюдения. Например, пиксель 147 может быть лицом кошки на изображении № 27, но это фоновая стена на изображении № 42. Таким образом, выбор объектов, как мы знаем, будет неудачным. Вот почему ConvNet настолько мощен, потому что имеет встроенную поступательную / вращательную инвариантность.
horaceT