«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но не нарушаем ли мы все классические статистические принципы, такие как проверка гипотез и репрезентативная выборка?
Пока мы делаем только прогнозы относительно одного и того же набора данных, это должно быть хорошо. Так что, если я использую данные Twitter для прогнозирования поведения пользователей Twitter, это, наверное, нормально. Однако использование данных Twitter для прогнозирования, например, Выборы, полностью игнорирует тот факт, что пользователи Twitter не являются репрезентативной выборкой для всего населения. Кроме того, большинство методов на самом деле не смогут провести различие между истинным настроением «широких масс» и кампанией. И твиттер полон кампаний. Таким образом, анализируя Twitter, вы быстро заканчиваете тем, что измеряете кампании и ботов. (См., Например, «Yahoo предсказывает политических победителей Америки»который полон избиения опросов и «анализ настроений намного лучше». Они предсказали, что «у Ромни более 90 процентов вероятности выиграть номинацию и выиграть первичку в Южной Каролине» (у него было 28%, в то время как у Гингрича было 40% в этом первичном).
Знаете ли вы другие такие большие данные не удается ? Я грубо помню, что один ученый предсказал, что вы не сможете поддерживать более 150 дружеских отношений. На самом деле он обнаружил только ограничение кепки в Friendster ...
Что касается данных из твиттера или вообще любых «больших данных», собранных из Интернета, я считаю, что часто люди даже вносят дополнительный уклон при сборе данных. Мало кто будет в твиттере. У них будет определенное подмножество, которое они пропустили, и это просто еще одно смещение в их наборе данных.
Разделение данных в набор тестов или для перекрестной проверки, вероятно, мало чем поможет. Другой набор будет иметь такой же уклон. А для больших данных мне нужно «сжать» мою информацию настолько сильно, что я вряд ли смогу ее перегрузить.
Недавно я услышал эту шутку с учёным, работающим с большими данными, который обнаружил, что в мире приблизительно 6 полов ... и я могу себе представить, что это произойдет ... "Мужчина, Женщина, Орк, Пушистик, Да и Нет".
Итак, какими методами мы должны вернуть статистику в анализ, особенно когда пытаемся предсказать что-то за пределами набора данных «больших данных»?
источник
Существует ряд методов в экспериментальном дизайне и анализе, которые могут помочь вам уменьшить предвзятость, но это опять-таки сводится к одному и тому же: нужно знать, что вы делаете. Анализ больших данных имеет ту же проблему, что и любой другой анализ данных; он страдает от недостатка гипотез.
Ярким примером является множественная регрессия с пошаговым выбором переменных. Очень хорошо, скажем так, но из 100 измеренных переменных статистические законы диктуют, что некоторые из них будут демонстрировать существенную связь при оценке, если посмотреть, значительно ли соответствующий коэффициент отличается от нуля. Таким образом, чем больше переменных в вашем наборе данных, тем больше шансов найти две, которые показывают какое-то (бессмысленное) отношение. И чем больше ваш набор данных, тем больше шансов для бессмысленных моделей, например, из-за небольшого смущающего эффекта. Если вы протестируете много моделей (и даже с только 10 переменными, которые могут быть целым рядом моделей), вы, скорее всего, найдете хотя бы одну значимую. Это что-то значит? Нет .
Что делать тогда? Используй свой мозг:
Эти вещи все очевидны и общеизвестны. Черт возьми, уже в 1984 году Розенбаум и Рубин продемонстрировали, как использовать показатели склонности для уменьшения систематической ошибки в наблюдательных исследованиях, и это то, чем являются самые большие наборы данных: данные наблюдений. В более поздней работе Feng et al. Также пропагандируется использование расстояния Махаланобиса. И действительно, один из моих статистических героев, Кокран, написал обзор этой проблемы уже в 1973 году! Или как насчет Рубина, который ввел многовариантную выборочную сопоставление и исправление регрессии уже в 1979 году. Старые публикации серьезно недооцениваются и слишком часто игнорируются, безусловно, в такой области, как статистика.
Все эти методы имеют свои плюсы и минусы, и нужно понимать, что уменьшение смещения - это не то же самое, что устранение смещения. Но если вы знаете о:
Большие данные не являются оправданием для получения фиктивных результатов.
Отредактированный после (правильного) замечания @DW, который указал, что я использовал термин «переоснащение» в неправильном контексте.
источник