Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода.
- Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин?
- Почему эта кодировка считается «стандартной»?
- Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с этим кодированием?
Ответы:
Причины, по которым стоит предпочесть кодирование двоичных переменных нулем один:
Различные пункты о кодировании двоичных переменных:
y = a + b * Male
вместоy = a + b * Gender
.источник
Это облегчает интерпретацию результатов. Предположим, у вас есть данные о высоте:
и вы взяли регрессию формы
Height = a + b * Gender + Residual
.С помощью фиктивной переменной 0,1 вы получите оценку
a
170, представляющую собой средний рост женщин, иb
10, представляющую собой разницу между средним ростом мужчин и женщин.С фиктивной переменной 1,2 вы получите оценку
a
160, которую труднее интерпретировать.источник
Я предполагал, что это потому, что тип поля, часто используемый для хранения пола, является битовым полем, а битовые поля в SQL могут иметь только значения 0 или 1. Когда вы выгружаете данные, они появляются как 0 или 1, и вот почему вы получаете эти конкретные значения.
Если бы вы хотели использовать 1 и 2, вам нужно было бы использовать больший тип поля, который занимал бы больше места и, следовательно, немного увеличивал бы всю базу данных.
источник
Я попросил профессора предположить, что мы кодируем «биологически», где женщины равны 0, а мужчины 1 - для отражения анатомии. Я не думаю, что это была самая чувствительная вещь, которую можно сказать о ПК в классе, но определенно легко запомнить, если взглянуть на набор данных 5 лет спустя.
источник
Пока есть много веских причин, но это также должно быть рефлексивным. Почему вы начинаете считать с 1? Это делает множество численных алгоритмов гораздо более сложным. Маркировка начинается с 0, а не с 1. Если вы еще не уверены в этом, у меня есть хороший пример того, почему это важно по адресу http://madhadron.com/?p=69.
Что касается того, почему женщинам 0, а мужчинам 1, давайте вспомним, что на протяжении большей части своей истории статистик, скорее всего, был мужчиной с натуральной кожей. Когда его попросили назвать пол, первым на ум пришла женщина. Все после этого было, вероятно, исторической случайностью и рационализацией.
источник
Стандарт ISO / IEC 5218 обновляет это понятие следующей картой:
Это особенно полезно в языках, где 0 приводит к ложному значению, например в JavaScript:
источник
То, как я вижу это лично, фаллически 0 обычно представляет женщину, поскольку это форма матки, и считается женской ... почти во всех науках (то есть в диаграммах родословной биологии / генетики) круги, или нули представляют женщин. Где более прямые формы края (треугольники, квадраты или 1) имеют тенденцию представлять мужской пол. Это простое понимание позволило мне всегда помнить, что для меня.
Хотя, в конце концов, если вы сами кодируете и анализируете данные, вы можете ставить любые числа, которые вы хотите, как правило, до тех пор, пока есть ключ к той фиктивной переменной, для которой вы использовали, она становится неактуальной.
источник