Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между ними?
13
Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между ними?
Ответы:
Вероятно, они используют «оставь одну кодировку» для обозначения стратегии Оуэна Чжана.
От: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
Закодированный столбец не является обычной фиктивной переменной, а является средним значением ответа по всем строкам для этого категориального уровня, за исключением самой строки. Это дает вам преимущество наличия категориального представления в одном столбце, избегая при этом прямой утечки ответа
Эта картина хорошо выражает идею.
источник