«Фиктивная переменная» против «индикаторной переменной» для номинальных / категориальных данных

15

«Фиктивная переменная» и «индикаторная переменная» представляют собой часто используемые термины меток для описания принадлежности к категории с кодированием 0/1; обычно 0: не член категории, 1: член категории.

26.11.2014 быстрый поиск на scholar.google.com (с заключенными в кавычки) показывает, что «фиктивная переменная» используется примерно в 318 000 статей, а «индикаторная переменная» используется примерно в 112 000 статей. Термин «фиктивная переменная» также имеет значение в нестатистической математике « связанной переменной », что, вероятно, способствует более широкому использованию «фиктивной переменной» в индексированных статьях.

Мои тематически связанные вопросы:

  1. Всегда ли эти термины являются синонимами (в статистике)?
  2. Есть либо из этих терминов никогда не благоугодно применительно к другим видам категориальных кодирования (например , эффект кодирования , Helmert кодирования и т.д. )?
  3. Какие статистические или дисциплинарные причины предпочитают один термин другому?
Alexis
источник
4
Я склонен использовать «переменную индикатора» для бинарных условий, например, пол может быть закодирован как maleзначения 1или 0. Если есть категориальная переменная с более чем 2 категориями, которая затем расширяется в индикаторные переменные для членства на каждом уровне, я бы использовал «фиктивные переменные» для описания этого набора индикаторных переменных.
Грегор - восстановить Монику
2
Я думаю, вы имеете в виду, что секс может быть закодирован как 1 или 0, гендер - гораздо более сложная конструкция. (в этом отношении секс тоже может быть более сложным);)
Алексис
2
Точка взята, отредактировано до sex.
Грегор - восстановить Монику
2
Я склонен называть такую ​​индикаторную переменную male, где 1 означает «истина» (в данном случае «мужчина»), а «0» означает «ложь» (в данном случае «женщина»). Если я использую имя переменной, sexмне придется искать, как я кодировал эту переменную каждый раз, когда возвращаюсь к этому набору данных.
Мартен Буис
4
Я слышал различные истории о том, что «фиктивная переменная» дико и, к сожалению, неверно истолковывается нетехнической аудиторией как подразумевающая презрение или унижение. Они были смущающими и достаточно убедительными, чтобы повернуть меня против этого термина. «Индикатор» для меня понятен и понятен.
Ник Кокс

Ответы:

12

Я бы сказал, что «фиктивная переменная» является более общим способом ссылки на (одну из) числовую переменную (и), которая представляет (вместе представляет) категориальный предиктор; поэтому термин применяется также к тем, которые используются в кодировании Гельмерта и эффектов . Это в основном из-за общего использования «пустышка», чтобы означать «замену». «Индикаторная переменная» Я имею в виду индикаторные функции - так что они могут быть только одним или нулем, чтобы указывать на наличие или отсутствие какого-либо свойства; Таким образом , этот термин относится только к тем , которые используются в справочнике уровня кодирования . Конечно , некоторые люди используют «фиктивное кодирование» означают «эталонный уровень кодирования»; по-видимому, они имеют более ограниченное определение «фиктивных переменных» или, во всяком случае, должны иметь.

† А если не называть эти «пустышки», что бы вы их называете?

ИксяяUяM

Иксязнак равно1M(Uя)знак равно{1весчасеN UяM0весчасеN UяM

1M()M

※ Или, как указал @gung, уровень означает кодирование.

Scortchi - Восстановить Монику
источник
2
Да ... вы можете предоставить ссылки на некоторые ресурсы, мотивирующие это? По моему опыту «фиктивная переменная» очень часто используется для кодирования 0/1. Не уверен, что я видел манекен, используемый, как вы предлагаете, и знаю, что другие используют его в противоположном смысле. Например, Alkharusi, H. (2012) «Категориальные переменные в регрессионном анализе: Сравнение кодирования пустышек и эффектов» Международный образовательный журнал 4 (2): 202–210.
Алексис
2
Я не говорил, что «фиктивная переменная» не используется для кодирования 0/1, просто она может использоваться в более общем смысле.
Scortchi - Восстановить Монику
1
Действительно, в самой цитируемой статье говорится, что при использовании кодирования эффектов «фиктивные переменные принимают значения 1, 0 и -1». (Конечно, я думаю, что они должны были бы назвать «фиктивное кодирование» чем-то другим, если они собираются это сказать.)
Scortchi - Восстановить Монику
1
Понятно ... Что касается вопроса из вашего разбитого верхнего индекса, я склонен называть их "категориальными переменными, использующими XXX-кодирование".
Алексис
2
Лучше всего об этом говорит Кнут в arxiv.org/abs/math/9205211. Он приписывает эту идею К.Э. Айверсону. Короче говоря, нам не нужно придумывать или вызывать функцию индикатора, но следуйте формальному обсуждению того, что наше программное обеспечение делает для нас.
Ник Кокс
6

КК1) Когда существует только одна категориальная переменная, это приводит к выводу модели простым способом, который может быть предпочтительным для некоторых людей. (Для примера, где использование этой схемы облегчает сравнение интересов, см. Мой ответ здесь: Почему оценочные значения от Лучшего линейного несмещенного предиктора (BLUP) отличаются от Лучшего линейного несмещенного оценщика (BLUE)? )

Gung - Восстановить Монику
источник