У меня есть проблема двоичной классификации из нескольких функций. Имеют ли коэффициенты (регуляризованной) логистической регрессии интерпретируемый смысл?
Я думал, что они могли бы указать размер влияния, учитывая особенности, предварительно нормированные. Однако в моей задаче коэффициенты, похоже, зависят от выбранных мной функций. Даже знак коэффициентов изменяется с различными наборами признаков, выбранными в качестве входных данных.
Имеет ли смысл исследовать значение коэффициентов и как правильно найти наиболее значимые коэффициенты и изложить их значение словами ? Являются ли некоторые подходящие модели и их знак коэффициентов неправильными - даже если они сортируют данные?
(Самая высокая корреляция между функциями составляет всего 0,25, но это, безусловно, играет роль?)
источник
Ответы:
Коэффициенты на выходе имеют значение, хотя это не очень интуитивно понятно для большинства людей и, конечно, не для меня. Вот почему люди меняют их отношения шансов. Тем не менее, лог отношения шансов является коэффициент; эквивалентно, возведенные в степень коэффициенты являются отношениями шансов.
Коэффициенты наиболее полезны для включения в формулы, которые дают предсказанные вероятности нахождения на каждом уровне зависимой переменной.
например, в
R
Оценка параметра для возраста составляет 1,64. Что это значит? Хорошо, если вы объедините это с оценкой параметра для перехвата (-21.24), вы можете получить формулу, предсказывающую вероятность менархе:
источник
Интерпретация непосредственно коэффициентов является сложной и может вводить в заблуждение. У вас нет гарантий того, как веса распределены среди переменных.
Быстрый пример, похожий на ситуацию, которую вы описываете: я работал над моделью взаимодействия пользователей с веб-сайтом. Эта модель включала две переменные, которые представляют количество «кликов» в течение первого часа и в течение второго часа сеанса пользователя. Эти переменные тесно связаны друг с другом. Если бы оба коэффициента для этих переменных были положительными, то мы могли бы легко ввести себя в заблуждение и полагать, что, возможно, более высокий коэффициент указывает на «более высокую» важность. Тем не менее, путем добавления / удаления другихпеременные, которые мы могли бы легко получить с моделью, в которой первая переменная имела положительный знак, а другая отрицательная. Мы пришли к выводу, что, поскольку между большинством пар доступных переменных были некоторые существенные (хотя и низкие) корреляции, мы не могли получить надежного заключения о важности переменных с использованием коэффициентов (с удовольствием узнаем из сообщества, если эта интерпретация верна).
Если вы хотите получить модель, в которой легче интерпретировать одну идею, используйте Лассо (минимизация нормы L1). Это приводит к редким решениям, когда переменные менее коррелируют друг с другом. Тем не менее, этот подход не может легко выбрать обе переменные из предыдущего примера - одна будет нулевой.
Если вы просто хотите оценить важность определенных переменных или наборов переменных, я бы порекомендовал использовать метод выбора некоторых функций. Такие подходы приводят к гораздо более осмысленному пониманию и даже глобальному ранжированию важности переменных на основе некоторого критерия.
источник
Коэффициенты наверняка имеют значение. В некоторых программных пакетах модель может быть направлена любым из двух способов для получения любого из двух типов коэффициентов. Например, в Stata можно использовать команду Logistic или команду logit; при использовании одного модель дает традиционные коэффициенты, в то время как при использовании другого модель дает отношения шансов.
Вы можете обнаружить, что одно гораздо более значимо для вас, чем другое.
По поводу вашего вопроса, что "... коэффициенты, похоже, зависят от чувствительности ...".
Вы говорите, что результаты зависят от того, какие переменные вы положили в модель?
Если да, то это факт жизни при проведении регрессионного анализа. Причиной этого является то, что регрессионный анализ рассматривает множество чисел и автоматизирует их.
Результаты зависят от того, как переменные связаны друг с другом и какие переменные не измеряются. Это искусство и наука.
Кроме того, если модель имеет слишком много предикторов по сравнению с размером выборки, признаки могут меняться сумасшедшим образом - я думаю, что это говорит о том, что модель использует переменные, которые имеют небольшой эффект, чтобы «скорректировать» свои оценки тех это имеет большой эффект (например, небольшая ручка громкости для небольших калибровок). Когда это происходит, я склонен не доверять переменным с небольшими эффектами.
С другой стороны, может случиться так, что признаки изначально меняются, когда вы добавляете новые предикторы, потому что вы приближаетесь к причинной истине.
Например, давайте представим, что бренди в Гренландии могут быть вредны для здоровья, а доход - для здоровья. Если доход не указан, и более богатые люди пьют бренди, то модель может «уловить» влияние пропущенного дохода и «сказать», что алкоголь полезен для вашего здоровья.
Не сомневайтесь в этом, это факт жизни, что коэффициенты зависят от других переменных, которые включены. Чтобы узнать больше, посмотрите на «опущенные переменные смещения» и «ложные отношения». Если вы раньше не сталкивались с этими идеями, попробуйте найти введение в курсы статистики, которые отвечают вашим потребностям - это может иметь огромное значение при разработке моделей.
источник