Предположим, у нас есть набор данных с точками. Мы хотим выполнить линейную регрессию, но сначала мы сортируем значения и независимо друг от друга, формируя набор данных . Есть ли какая-либо значимая интерпретация регрессии в новом наборе данных? У этого есть имя?n X i Y i ( X i , Y j )
Я полагаю, что это глупый вопрос, поэтому я прошу прощения, я не обучен статистике. На мой взгляд, это полностью уничтожает наши данные, и регрессия не имеет смысла. Но мой менеджер говорит, что он получает «лучшие регрессии большую часть времени», когда он делает это (здесь «лучше» означает более прогнозирующий). У меня такое чувство, что он обманывает себя.
РЕДАКТИРОВАТЬ: Спасибо за все ваши хорошие и терпеливые примеры. Я показал ему примеры @ RUser4512 и @gung, и он остался верным. Он раздражается, а я истощаюсь. Я чувствую себя удрученным. Я, вероятно, скоро начну искать другую работу.
источник
Ответы:
Я не уверен, что твой босс считает «более предсказательным». Многие люди ошибочно полагают, что более низкие значения означают лучшую / более прогнозирующую модель. Это не обязательно верно (это является показательным примером). Однако независимая предварительная сортировка обеих переменных гарантирует более низкое значение . С другой стороны, мы можем оценить прогнозирующую точность модели, сравнивая ее прогнозы с новыми данными, которые были сгенерированы тем же процессом. Я делаю это ниже в простом примере (закодирован ). рп п
R
Верхний левый график показывает исходные данные. Существует некоторая взаимосвязь между и (то есть корреляция составляет около .) Верхний правый график показывает, как выглядят данные после независимой сортировки обеих переменных. Вы можете легко увидеть, что сила корреляции существенно возросла (сейчас она составляет около ). Однако на нижних графиках мы видим, что распределение прогнозирующих ошибок намного ближе к для модели, обученной на исходных (несортированных) данных. Средняя абсолютная прогностическая ошибка для модели, в которой использовались исходные данные, составляет , тогда как средняя абсолютная прогностическая ошибка для модели, обученной на отсортированных данных, составляету .31 0,99 0 1,1 1,98 у 68 %Икс Y 0,31 +0,99 0 1,1 1,98 - почти вдвое больше. Это означает, что прогнозы отсортированной модели данных намного дальше от правильных значений. График в правом нижнем квадранте является точечным. Он отображает различия между прогнозирующей ошибкой с исходными данными и с отсортированными данными. Это позволяет сравнивать два соответствующих прогноза для каждого нового смоделированного наблюдения. Синие точки слева - это времена, когда исходные данные были ближе к новому значению , а красные точки справа - времена, когда отсортированные данные давали лучшие прогнозы. Существовали более точные прогнозы по модели, обученной по исходным данным в случаев. Y 68 %
Степень, в которой сортировка вызовет эти проблемы, является функцией линейных отношений, существующих в ваших данных. Если корреляция между и были уже, сортировка не будет иметь никакого эффекта и , следовательно , не может быть вредным. С другой стороны, если корреляция былау 1,0 - 1,0Икс Y 1,0 - 1,0 сортировка полностью изменила бы отношения, сделав модель настолько неточной, насколько это возможно. Если бы данные изначально были полностью некоррелированными, сортировка имела бы промежуточный, но все же довольно большой вредный эффект на точность прогнозирования полученной модели. Поскольку вы упоминаете, что ваши данные обычно коррелируют, я подозреваю, что это обеспечило некоторую защиту от вреда, присущего этой процедуре. Тем не менее, сортировка первой, безусловно, вредна. Чтобы изучить эти возможности, мы можем просто повторно запустить приведенный выше код с разными значениями для
B1
(используя один и тот же начальный элемент для воспроизводимости) и проверить вывод:B1 = -5
:B1 = 0
:B1 = 5
:источник
<-
иногда использую , но моя цель на CV состоит в том, чтобы написать код R как можно ближе к псевдокоду, чтобы он был более читабельным для людей, которые не знакомы с R.=
Он довольно универсален среди языков программирования в качестве оператора присваивания ,Если вы хотите убедить своего босса, вы можете показать, что происходит с симулированными, случайными, независимыми данными . С R:x,y
Очевидно, отсортированные результаты предлагают гораздо более приятную регрессию. Однако, учитывая процесс, используемый для генерации данных (две независимые выборки), абсолютно нет шансов, что один из них может быть использован для прогнозирования другого.
источник
Ваша интуиция верна: независимо отсортированные данные не имеют надежного значения, потому что входы и выходы случайным образом сопоставляются друг с другом, а не с тем, какой была наблюдаемая взаимосвязь.
Есть (хороший) шанс, что регрессия на отсортированных данных будет выглядеть красиво, но это бессмысленно в контексте.
Интуитивно понятный пример: предположим, набор данных для некоторой группы населения. График неизмененных данных, вероятно, будет выглядеть скорее как логарифмическая или степенная функция: более высокие темпы роста для детей, которые замедляются для более поздних подростков и «асимптотически» приближаются к максимальному росту для молодых людей и старше.(X=age,Y=height)
Если мы отсортируем в порядке возрастания, график, вероятно, будет почти линейным. Таким образом, функция предсказания состоит в том, что люди становятся выше за всю свою жизнь. Я бы не стал ставить деньги на этот алгоритм прогнозирования.x,y
источник
На самом деле, давайте сделаем это действительно очевидным и простым. Предположим, я провожу эксперимент, в котором я отмеряю 1 литр воды в стандартизированном контейнере и смотрю на количество воды, остающееся в контейнере как функцию времени , потери воды из-за испарения:т яVi ti
Теперь предположим, что я получаю следующие измерения в часах и литрах соответственно: Это совершенно очевидно коррелированные (и гипотетические) данные. Но если бы я сортировал измерения времени и объема, я бы получил И вывод из этого отсортированного набора данных состоит в том, что с увеличением времени объем воды увеличивается, и, более того, начиная с 1 литра воды, вы получите после 5 часов ожидания более 1 литра воды. Разве это не замечательно? Мало того, что заключение противоположно тому, что было сказано в исходных данных, это также говорит о том, что мы открыли новую физику!(ti,Vi)
источник
Это настоящее искусство, требующее реального понимания психологии, чтобы убедить некоторых людей в ошибочности своего пути. Помимо всех превосходных примеров, приведенных выше, полезной стратегией иногда является показать, что вера человека ведет к несогласованности с самим собой. Или попробуйте этот подход. Узнайте, что ваш начальник твердо убежден в том, что люди, выполняющие задание Y, не имеют отношения к тому, сколько атрибутов X они имеют. Покажите, как собственный подход вашего босса привел бы к заключению сильной ассоциации между X и Y. Используйте в своих интересах политические / расовые / религиозные убеждения.
Лицо инвалидности должно было быть достаточно. Какой упрямый босс. Ищите лучшую работу в то же время. Удачи.
источник
Еще один пример. Представьте, что у вас есть две переменные: одна связана с употреблением шоколада, а вторая связана с общим благополучием. У вас есть выборка из двух, и ваши данные выглядят так:
Какое отношение шоколад и счастье основаны на вашем образце? А теперь измените порядок одного из столбцов - каково отношение после этой операции?
Обратите внимание, что иногда мы действительно заинтересованы в изменении порядка дел, мы делаем это с помощью методов повторной выборки . Например, мы можем намеренно перетасовать наблюдения несколько раз, чтобы узнать что-то о нулевом распределении наших данных (как бы выглядели наши данные, если бы не было парных отношений), и затем мы можем сравнить, если наши реальные данные так или иначе лучше, чем случайные перемешиваются. То, что ваш менеджер делает с точностью до наоборот - он намеренно заставляет наблюдения иметь искусственную структуру там, где не было структуры, что приводит к фиктивным корреляциям.
источник
Простой пример, который может понять ваш менеджер:
Допустим, у вас есть Coin Y и Coin X, и вы переворачиваете каждую из них 100 раз. Затем вы хотите предсказать, может ли получение голов с помощью Монеты X (IV) повысить вероятность получения голов с помощью Монеты Y (DV).
Без сортировки отношения будут нулевыми, потому что результат Coin X не должен влиять на результат Coin Y. С сортировкой отношения будут почти идеальными.
Как имеет смысл заключить, что у вас есть хороший шанс получить головы на подбрасывании монеты, если вы только что подбросили головы другой монетой?
источник
Эта техника действительно удивительна. Я нахожу все виды отношений, о которых я никогда не подозревал. Например, я бы не подозревал, что числа, которые появляются в лотерее Powerball, которые, как ЗАЯВЛЯЕТСЯ, являются случайными, на самом деле сильно коррелируют с ценой открытия акций Apple в тот же день! Люди, я думаю, что мы собираемся заработать много времени. :)
Хм, похоже, не имеет существенных отношений. НО используя новую, улучшенную технику:
ПРИМЕЧАНИЕ. Это не является серьезным анализом. Просто покажите своему менеджеру, что они могут связать ЛЮБЫЕ две переменные, если вы сортируете их обе.
источник
Здесь много хороших встречных примеров. Позвольте мне добавить параграф о сути проблемы.
На самом деле, позвольте мне добавить параграф о том, почему это "работает", а также.
источник
На самом деле, описанный тест (т. Е. Сортировка значений X и значений Y независимо друг от друга и регрессия одного против другого) ДЕЛАЕТ что-то тестирование, предполагая, что (X, Y) отбираются как независимые пары из двумерного распределения. Это просто не проверка того, что хочет проверить ваш менеджер. По сути, это проверка линейности QQ-графика, сравнивая предельное распределение X с предельным распределением Y. В частности, «данные» упадут близко к прямой линии, если плотность Xs (f (x)) связана с плотностью Ys (g (y)) следующим образом:
источник
Странно, что самый очевидный контрпример все еще отсутствует среди ответов в его простейшей форме.
Это своего рода «прямая обратная» схема, которую вы, возможно, захотите найти здесь.
источник
Ты прав. Ваш менеджер найдет "хорошие" результаты! Но они бессмысленны. Когда вы сортируете их независимо друг от друга, вы получаете то, что они либо увеличиваются, либо уменьшаются одинаково, и это дает видимость хорошей модели. Но две переменные были лишены их фактического отношения, и модель неверна.
источник
Линейная регрессия обычно менее разумна (существуют исключения, см. Другие ответы); но геометрия хвостов и распределения ошибок говорит вам, насколько далеки от подобных распределений.
источник
У меня есть простая интуиция, почему это на самом деле хорошая идея, если функция монотонна :
PS: я нахожу удивительным, как по-видимому простой вопрос может привести к новым интересным способам переосмысления модели стандартов. Пожалуйста, спасибо, босс!
источник
Скажем, у вас есть эти точки на окружности радиуса 5. Вы вычисляете соотношение:
Затем вы сортируете свои значения x и y и снова делаете корреляцию:
С помощью этой манипуляции вы меняете набор данных с корреляцией 0,0 на набор данных с корреляцией 1,0. Это проблема.
источник
Позвольте мне сыграть адвокат дьявола здесь. Я думаю, что многие ответы убедительно доказывают, что процедура босса в корне ошибочна. В то же время я предлагаю контрпример, который иллюстрирует, что начальник, возможно, действительно видел результаты, улучшающиеся с этим ошибочным преобразованием.
Я думаю, что признание того, что эта процедура могла бы «сработать» для босса, могло бы привести к более убедительному аргументу: конечно, это сработало, но только при таких счастливых обстоятельствах, которые обычно не сработают. Тогда мы можем показать - как в отличном принятом ответе - как плохо может быть, когда нам не везет. Который в большинстве случаев. В изоляции, показывая босс , как плохо это может быть не может убедить его , потому что он , возможно , видел случай , когда он делает улучшить положение вещей, и фигуру , что наши фантазии аргумент должен иметь изъян где - то.
Я нашел эти данные в Интернете, и, конечно же, кажется, что регрессия улучшается благодаря независимой сортировке X и Y, потому что: а) данные имеют высокую положительную корреляцию, и б) OLS действительно плохо справляется с экстремальными (высокими -предельные) выбросы. Рост и вес имеют соотношение 0,19 с включенным выбросом, 0,77 с исключенным выбросом и 0,78 с независимой сортировкой X и Y.
Таким образом, мне кажется, что регрессионная модель в этом наборе данных улучшена независимой сортировкой (черная по сравнению с красной линией на первом графике), и существует видимая связь (черный с красным на втором графике) из-за того, что конкретный набор данных является в высокой (положительной) степени коррелирует и имеет правильные виды выбросов, которые наносят вред регрессии больше, чем тасование, которое происходит, когда вы независимо сортируете x и y.
Опять же, не говоря, что независимая сортировка вообще делает что-то разумное, или что это правильный ответ здесь. Просто босс мог видеть что-то подобное, что могло сработать при правильных обстоятельствах.
источник
Если он предварительно выбрал переменные, чтобы быть монотонными, это на самом деле довольно надежно. Google "неправильные линейные модели" и "Робин Доус" или "Говард Уэйнер". Доус и Вайнер говорят об альтернативных способах выбора коэффициентов. У Джона Кука есть небольшая колонка ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ).
источник
Я думал об этом и думал, что здесь есть некоторая структура, основанная на статистике заказов. Я проверил, и, кажется, менеджер менеджера не так чокнутый, как кажется
Коэффициент корреляции статистики заказов как новое измерение ассоциации с приложениями для анализа биосигналов
http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf
источник