Я использую Python Scikit-Learn для обучения и проверки логистической регрессии.
scikit-learn возвращает коэффициенты регрессии независимых переменных, но не предоставляет стандартных ошибок коэффициентов. Мне нужны эти стандартные ошибки для вычисления статистики Вальда для каждого коэффициента и, в свою очередь, для сравнения этих коэффициентов друг с другом.
Я нашел одно описание того, как вычислить стандартные ошибки для коэффициентов логистической регрессии ( здесь ), но это несколько трудно следовать.
Если вам случится знать простое, лаконичное объяснение того, как вычислить эти стандартные ошибки, и / или можете предоставить мне их, я был бы очень признателен! Я имею в виду не конкретный код (хотя, пожалуйста, не стесняйтесь размещать любой код, который может быть полезен), а скорее алгоритмическое объяснение необходимых шагов.
Ответы:
Предоставляет ли ваше программное обеспечение матрицу ковариации параметров (или дисперсии-ковариации)? Если это так, стандартные ошибки - это квадратный корень из диагонали этой матрицы. Вы, вероятно, хотите обратиться к учебнику (или к Google для университетских лекций), чтобы узнать, как получить матрицу для линейных и обобщенных линейных моделей.Vβ
источник
Стандартными ошибками коэффициентов модели являются квадратные корни из диагональных элементов ковариационной матрицы. Учтите следующее:
(ПРИМЕЧАНИЕ: это предполагает модель с перехватом.)
Ковариационная матрица может быть записана как:
Это может быть реализовано с помощью следующего кода:
Все это, как говорится,
statsmodels
вероятно, будет лучшим пакетом для использования, если вы хотите получить доступ к МНОГИМ «готовым» диагностикам.источник
V = np.product(predProbs, axis=1);
covLogit = np.linalg.pinv(np.dot(X_design.T * V), X_design)
Если вы заинтересованы в том, чтобы делать выводы, то вам, вероятно, стоит взглянуть на statsmodels . Стандартные ошибки и общие статистические тесты доступны. Вот пример логистической регрессии .
источник