В главе «Возвращение к среднему значению» Даниеля Канемана «Мышление, быстрое и медленное» приводится пример, и читателю предлагается спрогнозировать продажи отдельных магазинов с учетом общего прогноза продаж и показателей продаж за предыдущий год. , Например (пример книги имеет 4 магазина, я использую 2 здесь для простоты):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
Наивный прогноз будет 110 и 550 для магазинов 1 и 2, прирост по 10% для каждого. Однако автор утверждает, что этот наивный подход неверен. Более вероятно, что магазин с более низкой производительностью увеличится более чем на 10%, а магазин с более высокой производительностью увеличится (или даже уменьшится) менее чем на 10%. Поэтому, возможно, прогноз в 115 (увеличение на 15%) и 535 (рост на 7%) будет «более правильным», чем наивный прогноз.
Что я не понимаю, так это как мы можем сделать вывод, что продажи 100 магазина 1 - это обязательно магазин с более низкой производительностью? Возможно, из-за различий в местоположении истинные временные ряды магазинов 1 и 2 равны 10 и 550, а у магазина 1 был супер-год в 2011 году, а у магазина 2 - катастрофический год в 2011 году. Тогда не было бы смысла спрогнозировать уменьшение для магазина 1 и увеличение для магазина 2?
Я знаю, что информация о временных рядах не была предоставлена в исходном примере, но у меня сложилось впечатление, что «регрессия к среднему» относится к среднему сечению, и, следовательно, информация о временных рядах не имеет значения. Что я недопонимаю?
С таким небольшим количеством точек данных ответ будет почти полностью продиктован предыдущим (или подразумеваемым эквивалентом). Если автор видел много таких данных раньше, у них вполне может быть веская причина полагать, что их ответ с большей вероятностью будет правильным, учитывая их прошлые наблюдения. Я думаю, что можно предположить, что это пример регрессии к среднему значению, по крайней мере, без указания дополнительной информации. Например, магазины находятся в сопоставимых местах или нет? Если они есть, и нет других очевидных различий между магазинами, тогда мы можем чувствовать себя оправданными, думая, что они являются частью сопоставимого населения, и мы можем думать о регрессии к среднему. Если между магазинами есть очевидные различия, которые могут объяснить систематическую разницу в продажах, то это становится менее разумным.
источник
Я думаю, что лучшей (гипотетической) иллюстрацией может быть что-то вроде этого:
За исключением систематических причин, мы ожидаем, что худший исполнитель (из случайных причин) не будет таким снова. И так же для лучшего исполнителя.
Следовательно, при среднем росте в 10% я бы ожидал, что № 1 будет лучше, чем 110, а № 6 - хуже, чем 330.
Я чувствую сомнительную часть предположений. ИМХО очень редко, что отстой пакета действительно является случайной случайностью, а не какой-то основной неоднородностью.
источник