Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но не нарушаем ли мы все классические статистические принципы, такие как проверка гипотез и репрезентативная выборка?

Пока мы делаем только прогнозы относительно одного и того же набора данных, это должно быть хорошо. Так что, если я использую данные Twitter для прогнозирования поведения пользователей Twitter, это, наверное, нормально. Однако использование данных Twitter для прогнозирования, например, Выборы, полностью игнорирует тот факт, что пользователи Twitter не являются репрезентативной выборкой для всего населения. Кроме того, большинство методов на самом деле не смогут провести различие между истинным настроением «широких масс» и кампанией. И твиттер полон кампаний. Таким образом, анализируя Twitter, вы быстро заканчиваете тем, что измеряете кампании и ботов. (См., Например, «Yahoo предсказывает политических победителей Америки»который полон избиения опросов и «анализ настроений намного лучше». Они предсказали, что «у Ромни более 90 процентов вероятности выиграть номинацию и выиграть первичку в Южной Каролине» (у него было 28%, в то время как у Гингрича было 40% в этом первичном).

Знаете ли вы другие такие большие данные не удается ? Я грубо помню, что один ученый предсказал, что вы не сможете поддерживать более 150 дружеских отношений. На самом деле он обнаружил только ограничение кепки в Friendster ...

Что касается данных из твиттера или вообще любых «больших данных», собранных из Интернета, я считаю, что часто люди даже вносят дополнительный уклон при сборе данных. Мало кто будет в твиттере. У них будет определенное подмножество, которое они пропустили, и это просто еще одно смещение в их наборе данных.

Разделение данных в набор тестов или для перекрестной проверки, вероятно, мало чем поможет. Другой набор будет иметь такой же уклон. А для больших данных мне нужно «сжать» мою информацию настолько сильно, что я вряд ли смогу ее перегрузить.

Недавно я услышал эту шутку с учёным, работающим с большими данными, который обнаружил, что в мире приблизительно 6 полов ... и я могу себе представить, что это произойдет ... "Мужчина, Женщина, Орк, Пушистик, Да и Нет".

Итак, какими методами мы должны вернуть статистику в анализ, особенно когда пытаемся предсказать что-то за пределами набора данных «больших данных»?

data-mining dataset large-data validation Anony-Мус
источник

Ответы:

Ваши страхи обоснованы и проницательны. Yahoo и, возможно, несколько других компаний проводят рандомизированные эксперименты над пользователями и делают это хорошо. Но данные наблюдений сопряжены с трудностями. Распространенным заблуждением является то, что проблемы уменьшаются с увеличением размера выборки. Это верно для дисперсии, но смещение остается постоянным при увеличении n. Когда смещение велико, очень маленькая действительно случайная выборка или рандомизированное исследование могут быть более ценными, чем 100 000 000 наблюдений.

Фрэнк Харрелл
источник

Большие данные - это, вероятно, одна из областей, где разложение смещений отклонений бесполезно - качество данных и управление данными важнее. Это связано с тем, что мы не можем надеяться на то, что нам известны все данные или даже особые случаи - слишком много их

вероятностная

Существует ряд методов в экспериментальном дизайне и анализе, которые могут помочь вам уменьшить предвзятость, но это опять-таки сводится к одному и тому же: нужно знать, что вы делаете. Анализ больших данных имеет ту же проблему, что и любой другой анализ данных; он страдает от недостатка гипотез.

Ярким примером является множественная регрессия с пошаговым выбором переменных. Очень хорошо, скажем так, но из 100 измеренных переменных статистические законы диктуют, что некоторые из них будут демонстрировать существенную связь при оценке, если посмотреть, значительно ли соответствующий коэффициент отличается от нуля. Таким образом, чем больше переменных в вашем наборе данных, тем больше шансов найти две, которые показывают какое-то (бессмысленное) отношение. И чем больше ваш набор данных, тем больше шансов для бессмысленных моделей, например, из-за небольшого смущающего эффекта. Если вы протестируете много моделей (и даже с только 10 переменными, которые могут быть целым рядом моделей), вы, скорее всего, найдете хотя бы одну значимую. Это что-то значит? Нет .

Что делать тогда? Используй свой мозг:

сформулировать гипотезу, прежде чем собирать данные и проверить эту гипотезу. Это единственный способ убедиться, что ваша статистика действительно рассказывает историю.
Используйте ваши ковариаты, чтобы разделить выборку перед выполнением некоторых тестов. Глупый пример: если у вас есть 1000 мужчин и 100 женщин в вашем наборе данных, случайным образом выберите 50 каждый, если вы хотите говорить о средней популяции. Это действительно то, где большие данные пригодятся: у вас есть более чем достаточно для выборки.
Тщательно опишите тестовую группу, чтобы было ясно, для какой группы сформулированы ваши выводы.
Если вы используете свой большой набор данных в исследовательских целях, проверьте гипотезы, которые вы выдвинули во время этого исследования, на новом и другом наборе данных, а не только на подмножестве того, что вы собрали. И протестируйте их снова, используя все необходимые меры предосторожности.

Эти вещи все очевидны и общеизвестны. Черт возьми, уже в 1984 году Розенбаум и Рубин продемонстрировали, как использовать показатели склонности для уменьшения систематической ошибки в наблюдательных исследованиях, и это то, чем являются самые большие наборы данных: данные наблюдений. В более поздней работе Feng et al. Также пропагандируется использование расстояния Махаланобиса. И действительно, один из моих статистических героев, Кокран, написал обзор этой проблемы уже в 1973 году! Или как насчет Рубина, который ввел многовариантную выборочную сопоставление и исправление регрессии уже в 1979 году. Старые публикации серьезно недооцениваются и слишком часто игнорируются, безусловно, в такой области, как статистика.

Все эти методы имеют свои плюсы и минусы, и нужно понимать, что уменьшение смещения - это не то же самое, что устранение смещения. Но если вы знаете о:

что вы хотите проверить, и
как ты это делаешь

Большие данные не являются оправданием для получения фиктивных результатов.

Отредактированный после (правильного) замечания @DW, который указал, что я использовал термин «переоснащение» в неправильном контексте.

Йорис Мейс
источник

«Чем больше ваш набор данных, тем больше шансов для бессмысленного переоснащения» - на самом деле, это наоборот. Чем больше набор возможных моделей, тем выше вероятность переоснащения (при прочих равных условиях). Чем больше набор данных, тем меньше вероятность переоснащения (при прочих равных условиях).

@DW Как это так? На самом деле, если в моделировании есть абсолютная независимость, у существенной модели с маленькими и большими наборами данных есть столько же шансов (простое моделирование показывает это). Увы, мне еще предстоит встретить набор данных, где независимость идеальна. В тот момент, когда вы, например, получаете очень маленький смешивающий эффект, большие наборы данных с большей вероятностью дадут бессмысленные значимые результаты, чем небольшие наборы данных.

Йорис Мейс

Хороший ответ - ваш комментарий о нахождении значительных эффектов дает хорошее обоснование для методов усадки по сравнению с «внутри или вне» методами выбора модели.

вероятностная

@DW делает заявление о переоснащении, и кажется правильным - тем более, что чем больше набор данных, тем больше шансов для перекрестной проверки на подмножествах данных. Йорис Мейс делает заявление о статистической значимости. Это тоже правильно. Но в больших наборах данных статистическая значимость спорна - важен размер эффекта, потому что почти все является «статистически значимым».

zbicyclist

@zbicyclist Очень правильное наблюдение. Я признаю, что неправильно истолковал DW и использовал термин переоснащение в неправильном контексте. Я стою исправлено.

Йорис Мейс