Из других сообщений я узнал, что нельзя приписывать «важность» или «значимость» переменным предикторам, которые входят в модель лассо, потому что вычисление p-значений или стандартных отклонений этих переменных все еще находится в стадии разработки.
Исходя из этого рассуждения, правильно ли утверждать, что один НЕ МОЖЕТ сказать, что переменные, ИСКЛЮЧЕННЫЕ из модели Лассо, являются «не относящимися к делу» или «несущественными»?
Если да, что я могу на самом деле утверждать о переменных, которые либо исключены, либо включены в модель лассо? В моем конкретном случае я выбрал лямбда-параметр настройки, повторив 10-кратную перекрестную проверку 100 раз, чтобы уменьшить случайное отклонение и усреднить кривые ошибок.
ОБНОВЛЕНИЕ 1: я следовал предложению ниже и перезапустил лассо, используя образцы начальной загрузки. Я попробовал 100 образцов (это было то, что моя компьютерная сила могла справиться за ночь), и появились некоторые закономерности. 2 из моих 41 переменных вошли в модель более 95% раз, 3 переменные более 90% и 5 переменных более 85%. Эти 5 переменных входят в число 9, которые вошли в модель, когда я запустил ее с исходной выборкой, и были те, которые имели самые высокие значения коэффициентов. Если бы я запустил лассо, скажем, с 1000 образцов начальной загрузки, и эти шаблоны были сохранены, что было бы лучшим способом представить мои результаты?
1000 образцов начальной загрузки звучат достаточно? (Мой размер выборки 116)
Должен ли я перечислить все переменные и как часто они входят в модель, а затем утверждать, что те, которые входят чаще, имеют большую вероятность?
Это насколько я могу пойти с моими требованиями? Поскольку это незавершенное производство (см. Выше), я не могу использовать предельное значение, верно?
ОБНОВЛЕНИЕ 2: Следуя предложенному ниже предложению, я рассчитал следующее: в среднем 78% переменных в исходной модели вошли в модели, созданные для 100 выборок начальной загрузки. С другой стороны, только 41% наоборот. Это в значительной степени связано с тем фактом, что модели, сгенерированные для образцов начальной загрузки, имели тенденцию включать гораздо больше переменных (в среднем 17), чем исходная модель (9).
ОБНОВЛЕНИЕ 3: Если вы могли бы помочь мне в интерпретации результатов, которые я получил от начальной загрузки и моделирования Монте-Карло, пожалуйста, посмотрите на этот другой пост.