Так, например, вот определения, которые я получаю из стандартных учебников
Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест
Данные - фактические наблюдаемые значения
Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими наблюдаемыми значениями {dave | 100K}, {Джим | 200K} будут данные
Поэтому, если я скажу, что столбец [Имя] - это номинальные данные, а [доход] - данные о соотношении, я не буду более точным, описывая их как тип переменной вместо типа данных, как это делают большинство учебников? Я понимаю, что это может быть семантикой, и это нормально, вот и все. Но я боюсь, что мне здесь чего-то не хватает.
dataset
ordinal-data
categorical-data
ratio
Пользователь 42
источник
источник
Ответы:
Типология шкалы Стивенса не обязательно является неотъемлемой характеристикой переменных или даже самих данных, а зависит от того, как мы относимся к информации - к тому, что мы используем для ее значения .
В некоторых обстоятельствах одно и то же значение может считаться отношением, интервалом, порядковым или номинальным, в зависимости от того, что мы с ним делаем, - это вопрос того, какое значение мы придаем значениям, которые могут меняться от одного анализа к другому. Типология Стивенса имеет определенную ценность, но она не должна быть чрезмерно предписывающей.
Эта проблема важности масштаба как значения восходит, по крайней мере, к лорду (1953), который предложил пример, где были как номинальные, так и интервальные интерпретации одного и того же набора чисел.
Эта точка зрения была еще более четко сформулирована Веллеманом и Уилкинсоном (1993), которые приводят пример людей, получающих последовательно пронумерованные билеты при входе на прием с призом, присуждаемым за один из билетов; в зависимости от использования чисел на билетах, они имеют интерпретации по всем четырем шкалам.
Так, например, «я выиграл?» вопрос относится к номеру как к номинальному, а «приехал ли я слишком рано, чтобы получить выигрышный билет?» это вопрос, который рассматривает его как порядковый номер; с другой стороны (и я не думаю, что это в газете), используя 5 случайных номеров билетов, чтобы оценить количество людей в комнате, относились бы к ним как к соотношению (например, если было 4 случайно выбранных номера, которые получили утешительные призы, у вас будет всего 5 случайных чисел, из которых можно оценить общую посещаемость).
Они утверждают, что «хороший анализ данных не предполагает типы данных», «категории Стивенса не описывают фиксированные атрибуты данных», «категории Стивенса недостаточны для описания масштабов данных» и «Статистические процедуры не могут быть классифицированы в соответствии с критериями Стивенса» (на самом деле каждое утверждение также является заголовком раздела).
Критика была также предложена в нескольких местах Тьюки (например, в главе 5 книги Мостеллера и Тьюки 1977 года « Анализ данных и регрессия» ); Мостеллер и Тьюки предложили типологию - имена , оценки (упорядоченные метки), ранги (начиная с 1, которые могут представлять как самые большие или самые маленькие), подсчитанные доли (ограниченные нулем и единицей, включая проценты), количество (неотрицательные целые числа), суммы (неотрицательные действительные числа), сальдо (неограниченные, положительные или отрицательные значения).
В моей собственной работе я видел ситуации, когда серьезные проблемы с анализом были вызваны тем, что люди не смогли оценить большую разницу между переменными, относящимися к уровням (иногда называемые «переменными»), и потоками - простой пример этих типов - это различие в видах анализа, соответствующих количествам воды, фактически находящимся в резервуаре для хранения в каждом из периодов, и количеству воды, поступающей в него. Они будут (в некоторых из этих случаев) оба подкатегории из Мостеллера и Тьюки « количестваха типа» (и в тех же случаях, как отношение переменного в схеме Стивенса), указывая , что вопросы типологии могут быть весьма тонкими, но все еще может критически повлиять на соответствующий анализ.
PFVelleman и L.Wilkinson (1993),
«Номинальные, порядковые, интервальные и формульные типологии вводят в заблуждение»,
American Statistician , vol. 47 № 1 с.65-72
(рабочая версия, кажется, доступна на веб-странице 2-го автора здесь )
Лорд Ф. (1953),
«О статистической обработке футбольных чисел»,
Американский психолог , 8 , с.750-751
(Год этой статьи указан неверно в ссылках на версию статьи Веллемана и Уилкинсона, на которую я ссылался, но правильно упоминается в основной части статьи)
источник
Тип данных связан, но не идентичен типу переменной. В большинстве случаев они одинаковы, но они не должны быть.
Например, если вы собрали N образцов из нормального распределения. Вы могли бы подумать, что это числовые (отношение или масштаб) данные. Но я также могу сказать, что это категориальная переменная с N различными категориями, с частотой 1 для каждой категории. Это выглядит глупо, но это также допустимая переменная.
источник