Я использую Лассо для выбора объектов в относительно низкой размерности (n >> p). После подбора модели Лассо я хочу использовать ковариаты с ненулевыми коэффициентами, чтобы соответствовать модели без штрафа. Я делаю это, потому что хочу объективных оценок, которые Лассо не может дать мне. Я также хотел бы p-значения и доверительные интервалы для объективной оценки.
У меня проблемы с поиском литературы по этой теме. Большая часть литературы, которую я нахожу, посвящена установлению доверительных интервалов в оценках Лассо, а не уточненной модели.
Из того, что я читал, простая перестройка модели с использованием всего набора данных приводит к нереально малым ошибкам p-values / std. Прямо сейчас разделение образцов (в стиле Вассермана и Редера (2014) или Майнсхаузена и др. (2009)), кажется, хороший курс действий, но я ищу больше предложений.
Кто-нибудь сталкивался с этой проблемой? Если да, не могли бы вы дать несколько предложений.
Ответы:
Добавить к предыдущим ответам. Вы обязательно должны проверить последние работы Тибширани и его коллег. Они разработали строгую основу для выведения скорректированных на выбор значений p и доверительных интервалов для методов лассо-типа, а также предоставили R-пакет.
Видеть:
Ли, Джейсон Д. и др. «Точный вывод после выбора, с применением к лассо». Летопись статистики 44,3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Тейлор, Джонатан и Роберт Дж. Тибширани. «Статистическое обучение и выборочный вывод». Труды Национальной академии наук 112.25 (2015): 7629-7634.
R-пакет:
https://cran.r-project.org/web/packages/selectiveInference/index.html
источник
Как правило, переоснащение без использования штрафа после выбора переменных с помощью лассо считается «обманом», поскольку вы уже посмотрели данные, а полученные значения p и доверительные интервалы в обычном смысле недопустимы.
Таким образом, заглядывать в данные дважды - не проблема. Вам необходимо выяснить, выполняются ли для вашей проблемы условия, указанные в документе, или нет.
(В статье также есть много полезных ссылок)
Ссылка:
Чжао С., Шоджае А. и Виттен Д. (2017). В защиту неоправданного: очень наивный подход к многомерному выводу. Получено с: https://arxiv.org/pdf/1705.05543.pdf
источник
Я хотел добавить несколько статей из литературы по ортогональному / двойному машинному обучению, которая становится популярной в литературе по прикладной эконометрике.
Беллони, Александр, Виктор Черножуков и Кристиан Хансен. «Вывод о влиянии лечения после выбора среди крупногабаритных контролей». Обзор экономических исследований 81.2 (2014): 608-650.
В этой статье рассматриваются теоретические свойства оценки воздействия переменной OLS после выбора «других» элементов управления с использованием LASSO.
Виктор Черножуков, Денис Четвериков, Мерт Демирер, Эстер Дюфло, Кристиан Хансен, Уитни Ньюи, Джеймс Робинс, Машинное обучение с двойным / двойным смещением для обработки и структурных параметров, журнал «Эконометрика», том 21, выпуск 1, 1 февраля 2018 года, страницы C1 – C68 , https://doi.org/10.1111/ectj.12097
Это развивает всеобъемлющую теорию использования ряда непараметрических методов (алгоритмов ML) для нелинейного управления многомерным неприятным параметром (confounders), а затем изучает влияние конкретного ковариата на результат. Они имеют дело с частично-линейными каркасами и полностью параметрическими каркасами. Они также рассматривают ситуации, когда переменная интереса смешана.
источник