Бинарную переменную со значениями 0, 1 можно (обычно) масштабировать до (значение - среднее) / SD, что, вероятно, является вашим z-счетом.
Самым очевидным ограничением этого является то, что если вам удастся получить все нули или все единицы, то включение SD-карты вслепую означало бы, что z-оценка является неопределенной. Существует также случай назначения нуля, поскольку значение - среднее значение равно нулю. Но многие статистические вещи не будут иметь большого смысла, если переменная действительно является константой. В целом, однако, если SD невелик, существует больший риск того, что оценки будут нестабильными и / или не будут точно определены.
Проблема в том, чтобы дать лучший ответ на ваш вопрос, заключается именно в том, какой «алгоритм машинного обучения» вы рассматриваете. Это звучит так, как будто это алгоритм, который объединяет данные для нескольких переменных, и поэтому обычно имеет смысл предоставлять их в одинаковых масштабах.
(ПОЗЖЕ) Поскольку оригинальный постер добавляет комментарии один за другим, их вопрос превращается. Я все еще считаю, что (значение - среднее) / SD имеет смысл (то есть не является бессмысленным) для бинарных переменных, пока SD является положительным. Тем не менее, логистическая регрессия была позже названа как приложение, и для этого нет теоретической или практической выгоды (и даже некоторой потери простоты) в чем-либо, кроме подачи двоичных переменных как 0, 1. Ваше программное обеспечение должно быть в состоянии хорошо справляться с что; если нет, откажитесь от этого программного обеспечения в пользу программы, которая может. С точки зрения заглавного вопроса: можно, да; должен, нет.
Стандартизация бинарных переменных не имеет никакого смысла. Значения являются произвольными; они ничего не значат сами по себе. Может быть обоснование выбора некоторых значений, таких как 0 и 1, в отношении проблем числовой стабильности, но это так.
источник
Один хороший пример, где может быть полезно стандартизировать немного другим способом, приведен в разделе 4.2 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Это в основном, когда интерес представляет интерпретация коэффициентов, и, возможно, когда не так много предикторов.
источник
Что вы хотите стандартизировать, двоичную случайную переменную или пропорцию?
источник
В логистической регрессии бинарные переменные могут быть стандартизированы для объединения их с непрерывными переменными, когда вы хотите дать всем им неинформативный априор, такой как N ~ (0,5) или Коши ~ (0,5). Рекомендуется стандартизация следующим образом: возьмите общее количество и дайте
1 = пропорция 1
0 = 1 - пропорция 1.
-----
Редактировать: На самом деле я был не прав, это не стандартизация, а смещение, которое должно быть сосредоточено на 0 и отличаться на 1 в нижнем и верхнем состояниях, скажем, что население составляет 30% в компании А и 70% в другом, мы можем определить центрированную переменную «Компания А», чтобы принимать значения -0,3 и 0,7.
источник