Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки.
Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана / реализована / изобретена / обнаружена? У меня нет смысла анализировать всю «совокупность» набора данных. То, что вы можете это сделать, не означает, что вы должны это делать (глупость - это привилегия, но вы не должны злоупотреблять ею :)
Поэтому мой вопрос заключается в следующем: является ли статистически значимым анализировать весь набор данных? Лучшее, что вы можете сделать, это минимизировать ошибку, если вы сделали выборку. Но стоит ли минимизировать эту ошибку? Действительно ли «ценность информации» стоит усилий, затрат времени и т. Д., Которые используются при анализе больших данных на массивно параллельных компьютерах?
Даже если проанализировать всю совокупность, результат все равно будет в лучшем случае предположением с большей вероятностью быть правым. Возможно, немного выше, чем выборка (или это будет намного больше?) Будет ли понимание, полученное в результате анализа популяции и анализа выборки, сильно отличаться?
Или мы должны принять это как «времена изменились»? Выборка как вид деятельности может стать менее важной при достаточной вычислительной мощности :)
Примечание: я не пытаюсь начать дебаты, но ищу ответ, чтобы понять, почему большие данные делают то, что они делают (т.е. анализируют все), и игнорируют теорию выборки (или нет?)
источник
Ответы:
Одним словом да . Я полагаю, что все еще существуют ясные ситуации, когда выборка уместна как внутри, так и вне мира «больших данных», но природа больших данных, безусловно, изменит наш подход к выборке, и мы будем использовать больше наборов данных, которые являются почти полными представлениями базовой численность населения.
Отбор проб: В зависимости от обстоятельств почти всегда будет ясно, является ли выборка подходящей вещью. Отбор проб не является изначально выгодным видом деятельности; это именно то, что мы делаем, потому что нам нужно найти компромисс в стоимости осуществления сбора данных. Мы пытаемся охарактеризовать популяции и должны выбрать подходящий метод для сбора и анализа данных о населении. Выборка имеет смысл, когда предельная стоимость метода сбора данных или обработки данных высока. Попытка охватить 100% населения в этом случае не является хорошим использованием ресурсов, потому что вам часто лучше справляться с такими вещами, как необъективность, чем с небольшими улучшениями в случайной ошибке выборки.
Чем отличаются большие данные? «Большие данные» отвечают на многие из тех вопросов, которые у нас были целую вечность, но «новым» является то, что сбор данных происходит в рамках существующего компьютерного процесса, поэтому предельные затраты на сбор данных практически равны нулю. Это резко снижает нашу потребность в отборе проб.
Когда мы все еще будем использовать выборку? Если ваша совокупность «больших данных» является правильной совокупностью для данной проблемы, то вы будете использовать выборку только в нескольких случаях: необходимость запуска отдельных экспериментальных групп или если объем данных слишком велик для сбора и обработки (многие в наше время мы можем легко обрабатывать миллионы строк данных, поэтому границы здесь становятся все дальше и дальше). Если мне кажется, что я отклонил ваш вопрос, то, возможно, потому, что я редко сталкивался с ситуациями, когда объем данных вызывал озабоченность на этапе сбора или обработки, хотя я знаю, что многие
Ситуация, которая мне кажется трудной, заключается в том, что ваша популяция «больших данных» не совсем точно отражает вашу целевую аудиторию, поэтому компромисс между яблоками и апельсинами. Допустим, вы являетесь региональным транспортным планировщиком, и Google предложил вам предоставить доступ к своим журналам GPS-навигации Android, чтобы помочь вам. Хотя набор данных, без сомнения, будет интересен для использования, население, вероятно, будет систематически предвзятым по отношению к малообеспеченным, пользователям общественного транспорта и пожилым людям. В такой ситуации традиционные путевые дневники, отправляемые в случайную выборку домохозяйств, хотя и являются более дорогостоящими и меньшими по количеству, все же могут быть лучшим методом сбора данных. Но это не просто вопрос «выборка против больших данных», это
источник
Несмотря на то, что мобильными устройствами создаются большие объемы больших данных и тому подобное, в них мало полезных данных. Если вы хотите предсказать схемы городских поездок с использованием квадрата квадрата, вы можете оказаться на порядок в оценочных потоках. Хуже того, вы не будете знать, переоценили ли вы или недооценили эти потоки. Вы можете получить безумно точную картину городских маршрутов пользователей маниакальной четверки, но если всем не требуется (1) держать работающий смартфон, (2) постоянно запускать приложение четверки и (3) зарегистрироваться на в любом месте, где они останавливаются дольше 10 минут (например, получите электронную перепись; пусть либертарианцы будут жаловаться на Google и Facebook, зная все о вас), ваши данные будут содержать неизвестные предубеждения, а ваши электронные Deweys будут продолжать опровергать настоящие слова Труманы (кликабельно):
(источник: whatisasurvey.info )
Во всяком случае, я ожидал бы, что этот кусочек истории будет повторяться, и некоторые большие прогнозы «пиво + подгузники», полученные из больших данных, будут опровергнуты исследователями, использующими более строгие методы выборки. Это удивительно , что вероятность на основе исследования остаются точными даже несмотря на снижение темпов реагирования.
источник
Всякий раз, когда кто-то применяет методы статистического вывода, важно иметь четкое представление о населении, относительно которого он стремится сделать выводы. Даже если данные, которые были собраны, очень велики, они все равно могут относиться только к небольшой части населения и могут быть не очень репрезентативными для всего.
Предположим, например, что компания, работающая в определенной отрасли, собрала «большие данные» о своих клиентах в определенной стране. Если он хочет использовать эти данные, чтобы сделать выводы о своих существующих клиентах в этой стране, то выборка может быть не очень актуальной. Однако, если он хочет сделать выводы о большей численности населения - потенциальных, а также существующих клиентов или клиентов в другой стране - тогда становится важным рассмотреть вопрос о том, в какой степени клиенты, о которых собирались данные, являются репрезентативными - возможно, по доходу, возрасту. , пол, образование и т. д. - большей части населения.
Измерение времени также необходимо учитывать. Если цель состоит в том, чтобы использовать статистический вывод для обоснования прогнозов, то следует понимать, что популяция распространяется на будущее. Если это так, то снова становится необходимым рассмотреть вопрос о том, был ли набор данных, каким бы большим он ни был, был получен при обстоятельствах, характерных для тех, которые могут быть получены в будущем.
источник
Из того, что я видел в увлечении большими данными / ML, размышления о выборке и населении, из которого берется ваша выборка, так же важны, как и раньше, - но думали о еще меньшем.
Я «одитирую» класс Стэнфордского ML, и до сих пор мы рассмотрели регрессию и нейронные сети, не упоминая о демографическом выводе. Так как этот класс был укомплектован 6-значными людьми, сейчас есть очень много людей, которые очень точно знают, как подгонять данные, не имея понятия об образце.
источник
Да, выборка актуальна и останется актуальной. Суть в том, что точность статистической оценки, как правило, зависит от размера выборки, а не от совокупности, которую мы хотим обобщить. Таким образом, среднее или среднее значение, рассчитанное по выборке из 1000 респондентов, даст оценку с определенной точностью (по отношению ко всей популяции, из которой мы провели выборку), независимо от размера населения (или «насколько велика» « большие данные »
Сказав, что: Есть конкретные вопросы и проблемы, которые актуальны и должны быть упомянуты:
Вы можете проверить нашу «революцию больших данных» здесь.
источник
Многие методы больших данных на самом деле разработаны вокруг выборки.
Вопрос должен быть больше на линии:
Многое из «больших данных» все еще довольно свежо, а иногда и наивно. Например, K-средства могут быть тривиально распараллелены и, таким образом, работают для «больших данных» (я не буду говорить о результатах, они не очень значимы; и, вероятно, не очень отличаются от результатов, полученных на выборке!). Насколько я знаю, это то, что делает реализация k-средних в Mahout.
Тем не менее, исследование выходит за рамки наивного распараллеливания (которое может все еще потребовать большого количества итераций) и пытается выполнить K-средства в фиксированном количестве итераций. Пример для этого:
Ene, A. and Im, S. и Moseley, B.
Материалы 17-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2011
И угадайте, что, их подход в значительной степени основан на выборке .
Следующий пример: Решение леса . По сути, для нескольких выборок из набора данных создайте дерево решений. Можно снова тривиально распараллелить: поместите каждый образец на отдельную машину. И снова, это основанный на выборке подход.
Таким образом, выборка является одним из ключевых компонентов подходов к большим данным!
И в этом нет ничего плохого.
источник
Перекрестная проверка является конкретным примером подвыборки, которая очень важна для ОД / больших данных. В целом, большие данные все еще обычно являются выборкой населения, как уже упоминали другие люди.
Но я думаю, что OP может конкретно относиться к выборке, поскольку она относится к контролируемым экспериментам, а не к данным наблюдений. Обычно большие данные считаются последними, но, по крайней мере, для меня есть исключения. Я бы подумала о рандомизированных испытаниях, A / B-тестировании и многоруких бандитах в настройках электронной коммерции и социальных сетей в качестве примеров «выборки в условиях больших данных».
источник
В областях, где большие данные набирают популярность: поиск, реклама, рекомендательные системы, такие как Amazon, Netflix, существует очень большой стимул для изучения всего набора данных.
Целью этих систем является адаптация рекомендаций / предложений для каждого члена населения. Кроме того, количество изучаемых атрибутов огромно. Средняя система веб-аналитики может измерять рейтинг кликов, «тепловое отслеживание» «горячих областей» на странице, социальные взаимодействия и т. Д. И сопоставлять их с большим набором заранее определенных целей.
Что еще более важно, большинство мест, где большие данные сейчас повсеместно распространены, представляют собой «онлайн» потоки данных, то есть данные постоянно добавляются / обновляются. Разработка схемы выборки, которая охватывает все эти атрибуты без присущей ей предвзятости и все же дает многообещающие результаты (читайте лучше), является сложной задачей.
Отбор проб по-прежнему остается весьма актуальным для обследований, медицинских испытаний, A / B-тестирования, обеспечения качества.
В двух словах, выборка очень полезна, когда исследуемая популяция очень велика, и вас интересуют макроскопические свойства популяции. 100% проверка (большие данные) необходима для использования микроскопических свойств системы
Надеюсь это поможет :)
источник