Мне несколько раз задавали вопрос:
Что такое Big-Data?
И студентами, и моими родственниками, которые накапливают шум вокруг статистики и ML.
Я нашел это резюме . И я чувствую, что согласен с единственным ответом там.
На странице Википедии также есть некоторые комментарии, но я не уверен, действительно ли я согласен со всем там.
РЕДАКТИРОВАТЬ: (Я чувствую, что на странице Википедии не хватает объяснения методов решения этой проблемы и парадигмы, которую я упоминаю ниже) .
Недавно я посетил лекцию Эммануэля Кэндеса , где он представил парадигму больших данных как
Сначала данные Задайте вопросы позже
В этом главное отличие исследований, основанных на гипотезах, когда вы сначала формулируете гипотезу, а затем собираете данные, чтобы что-то сказать о ней.
Он много занимался вопросами количественной оценки достоверности гипотез, генерируемых отслеживанием данных. Главное, что я извлек из его лекции, это то, что нам действительно нужно начать контролировать FDR, и он представил для этого метод подделки .
Я думаю, что у CV должен быть вопрос о том, что такое Big-Data и какое у вас определение. Я чувствую, что существует так много разных «определений» , что трудно действительно понять, что это такое, или объяснить это другим, если нет общего консенсуса относительно того, из чего оно состоит.
Я чувствую, что «определение / парадигма / описание», предоставленное Candès, является самым близким, с чем я согласен, что вы думаете?
РЕДАКТИРОВАТЬ 2: Я чувствую, что ответ должен предоставить нечто большее, чем просто объяснение самих данных. Это должна быть комбинация данных / методов / парадигмы.
EDIT3: я чувствую, что это интервью с Майклом Джорданом может также добавить что-то к столу.
РЕДАКТИРОВАТЬ 4: Я решил выбрать самый высокий голос как правильный. Хотя я думаю, что все ответы добавляют что-то к обсуждению, и я лично чувствую, что это больше вопрос парадигмы того, как мы генерируем гипотезы и работаем с данными. Я надеюсь, что этот вопрос послужит источником рекомендаций для тех, кто ищет Big-Data. Я надеюсь, что страница Википедии будет изменена, чтобы еще больше подчеркнуть проблему множественного сравнения и контроля FDR.
источник
Ответы:
Я имел удовольствие присутствовать на лекции доктора Хэдли Уикхэма о славе RStudio. Он определил это так, что
Хэдли также считает, что большинство данных, по крайней мере, может быть сведено к управляемым проблемам, и что очень небольшое количество - это действительно большие данные. Он обозначает это как «Мираж больших данных».
Слайды можно найти здесь .
источник
Набор данных / поток называется Big Data, если он удовлетворяет всем четырем V
Если и до тех пор, пока он не будет удовлетворен, набор данных нельзя назвать большими данными.
Подобный ответ мой, для справки.
Сказав это, как ученый данных; Я считаю, что фреймворк Map-Reduce действительно хорош. Разделение ваших данных, их отображение, а затем результаты шага картографирования сводятся в один результат. Я нахожу этот фреймворк действительно увлекательным, и как он принес пользу миру данных.
И вот несколько способов, как я справляюсь с проблемой данных во время моей повседневной работы:
И вот как проводится эксперимент с данными:
Да, существуют алгоритмы Больших Данных, такие как гиперблог и т. Д .; но я не нашел необходимости использовать их.
Так да. Данные собираются в первую очередь перед созданием гипотезы.
источник
Я думаю, что единственное полезное определение больших данных - это данные, которые каталогизируют всю информацию о конкретном явлении. Под этим я подразумеваю, что вместо выборки из некоторой популяции, представляющей интерес, и сбора некоторых измерений по этим единицам, большие данные собирают измерения по всей популяции, представляющей интерес. Предположим, вы заинтересованы в клиентах Amazon.com. Amazon.com может собирать информацию обо всех покупках своих клиентов, а не только отслеживать некоторых пользователей или отслеживать только некоторые транзакции.
На мой взгляд, определения, которые зависят от объема памяти самих данных, имеют несколько ограниченную полезность. По этой метрике, учитывая достаточно большой компьютер, никакие данные на самом деле не являются большими данными. В экстремальных условиях бесконечно большого компьютера этот аргумент может показаться редуцирующим, но рассмотрим случай сравнения моего ноутбука потребительского уровня с серверами Google. Ясно, что у меня возникнут огромные проблемы с логистикой, когда я пытаюсь перебрать терабайт данных, но у Google есть ресурсы, чтобы справиться с этой задачей довольно легко. Что еще более важно, размер вашего компьютера не является внутренним свойством данных , поэтому определение данных исключительно со ссылкой на любую имеющуюся у вас технологию, похоже на измерение расстояния с точки зрения длины ваших рук.
Этот аргумент не просто формализм. Потребность в сложных схемах распараллеливания и распределенных вычислительных платформах исчезает, когда вы обладаете достаточной вычислительной мощностью. Поэтому, если мы примем определение, что Большие Данные слишком велики, чтобы поместиться в ОЗУ (или вылетает Excel, или что-то еще), то после обновления наших машин Большие Данные перестают существовать. Это кажется глупым.
Но давайте посмотрим на некоторые данные о больших данных, и я назову это «Большие метаданные». В этой записи блога наблюдается важная тенденция: доступная оперативная память увеличивается быстрее, чем объемы данных, и провокационно заявляет, что «большая оперативная память съедает большие данные», то есть при достаточной инфраструктуре у вас больше нет проблем с большими данными, вы просто есть данные, и вы возвращаетесь в область традиционных методов анализа.
Более того, разные методы представления будут иметь разные размеры, поэтому не совсем ясно, что означает определение «больших данных» в зависимости от их размера в памяти. Если ваши данные построены таким образом, что хранится много избыточной информации (то есть вы выбираете неэффективное кодирование), вы можете легко переступить порог того, что ваш компьютер может легко обработать. Но почему вы хотите, чтобы определение имело это свойство? По моему мнению, набор данных «большие данные» не должен зависеть от того, сделали ли вы эффективный выбор в дизайне исследования.
Кроме того, я думаю, что этот вопрос важен, потому что он косвенно затрагивает, почему определения важны - то есть, для кого вы определяете тему. Обсуждение сложения для первоклассников начинается не с теории множеств, а со ссылки на подсчет физических объектов. По моему опыту, большая часть использования термина «большие данные» встречается в популярной прессе или при общении между людьми, которые не являются специалистами в области статистики или машинного обучения (например, маркетинговые материалы, требующие профессионального анализа), и он используется для выразить идею о том, что современные компьютерные практики означают, что имеется огромное количество доступной информации, которую можно использовать. Это почти всегда в контексте данных, раскрывающих информацию о потребителях, которая, возможно, если не частная, то не сразу очевидна.
Таким образом, коннотация и анализ, связанные с общим использованием «больших данных», также несут в себе идею, что данные могут раскрывать неясные, скрытые или даже личные детали жизни человека, при условии применения достаточного логического метода. Когда средства массовой информации сообщают о больших данных, это, как правило, приводит к ухудшению анонимности - определение того, что такое «большие данные», кажется несколько ошибочным в этом свете, потому что популярная пресса и неспециалисты не заботятся о достоинствах случайного выбора. леса и машины опорных векторов и т. д., и при этом они не понимают проблем анализа данных в различных масштабах. И это нормально.Беспокойство с их точки зрения сосредоточено на социальных, политических и правовых последствиях информационного века. Точное определение для СМИ или неспециалистов не очень полезно, потому что их понимание также не является точным. (Не думайте, что я самодовольный - я просто замечаю, что не каждый может быть экспертом во всем.)
источник
Перебирая огромную литературу по «Большим данным», я собрал до 14 «V» терминов, 13 из них примерно по 11 измерениям:
14-й срок - Вакууит. Согласно недавнему провокационному сообщению, больших данных не существует . Его основные моменты таковы:
Правильное определение больших данных будет зависеть от аппаратного обеспечения, программного обеспечения, потребностей и знаний и, вероятно, не должно зависеть от фиксированного размера. Следовательно, пригодное для использования определение в Больших данных: следующий рубеж для инноваций, конкуренции и производительности , июнь 2011 года:
источник
Люди, кажется, зациклены на большом квалификаторе в Big Data. Тем не менее, размер является лишь одним из компонентов этого термина (домена). Недостаточно, чтобы ваш набор данных был большим, чтобы назвать вашу проблему (область) большими данными, вам также нужно, чтобы это было трудно понять, проанализировать и даже обработать. Некоторые называют эту функцию неструктурированной , но это не только структура, но и неясные отношения между различными частями и элементами данных.
Рассмотрим наборы данных, которые физики высоких энергий работают в таких местах, как ЦЕРН . Они работали с данными о размере петабайтов в течение многих лет, прежде чем был введен термин « Большие данные» . Но даже сейчас они не называют эти большие данные, насколько я знаю. Почему? Поскольку данные довольно регулярны, они знают, что с ними делать. Возможно, они пока не смогут объяснить каждое наблюдение, поэтому они работают над новыми моделями и т. Д.
Теперь мы называем большие данные проблемами, связанными с наборами данных, размеры которых могут быть сгенерированы за несколько секунд из LHC в CERN. Причина в том, что эти наборы данных, как правило, состоят из элементов данных, поступающих из множества источников с различными форматами, неясных отношений между данными и неопределенной ценности для бизнеса. Это может быть всего 1 ТБ, но так сложно обработать все аудио, видео, тексты, речь и т. Д. Таким образом, с точки зрения сложности и требуемых ресурсов это превосходит петабайты данных ЦЕРН. Мы даже не знаем, есть ли в наших наборах данных полезная информация.
Следовательно, решение проблем больших данных включает в себя анализ, извлечение элементов данных неизвестного значения, а затем связывание их друг с другом. "Разбор" изображения может быть большой проблемой сам по себе. Скажем, вы ищете кадры видеонаблюдения с улиц города, пытаясь выяснить, становятся ли люди злее и влияет ли это на дорожные происшествия с участием пешеходов. Есть тонна видео, вы находите лица, пытаетесь измерить их настроение по выражениям, а затем связываете это с количеством наборов данных о несчастных случаях, полицейскими отчетами и т. Д., И все это при контроле погоды (преципитат, температура) и пробок на дорогах. Вам необходимы инструменты хранения и анализа, которые поддерживают эти большие наборы данных различного типа и могут эффективно связывать данные друг с другом.
Большие данные - это сложная проблема анализа, сложность которой зависит как от огромного размера, так и от сложности структуры и кодирования информации в ней.
источник
Я думаю, что причина, по которой люди путаются в том, что такое большие данные, заключается в том, что они не видят их преимуществ. Значение Big Data (техника) зависит не только от объема данных, которые вы можете собрать, но и от прогнозирующего моделирования, которое в конечном итоге становится более важным:
Больше предикторов, потому что теперь мы можем собирать данные, которые раньше было невозможно захватить (из-за ограниченной мощности оборудования, ограниченной способности работать с неструктурированными данными). Чем больше предикторов, тем больше шансов получить значимые предикторы, то есть лучшую модель, лучший прогноз, лучшее решение для бизнеса.
Дополнительные наблюдения не только делают модель более устойчивой с течением времени, но также помогают модели изучать / обнаруживать все возможные модели, которые могут быть представлены / сгенерированы в реальности.
источник
Хитрость Big Data в сравнении с его антонимом (предположительно Small Data?) Заключается в том, что это континуум. Люди с большими данными перешли на одну сторону спектра, люди с маленькими данными - к другой, но на песке нет четкой линии, с которой все могли бы согласиться.
Я бы посмотрел на поведенческие различия между ними. В ситуациях с небольшими данными у вас есть «маленький» набор данных, и вы стремитесь сжать как можно больше информации о каждой точке данных, которую вы можете. Получите больше данных, вы можете получить больше результатов. Однако получение большего количества данных может быть дорогим. Собираемые данные часто ограничены, чтобы соответствовать математическим моделям, таким как выполнение частичного факториала тестов для выявления интересного поведения.
В ситуациях с большими данными у вас есть «большой» набор данных, но ваш набор данных не столь ограничен. Обычно вам не удается убедить своих клиентов купить латинский квадрат мебели, просто чтобы облегчить анализ. Вместо этого у вас, как правило, есть скопления плохо структурированных данных. Чтобы решить эти проблемы, цель состоит не в том, чтобы «выбрать лучшие данные и выжать из них все, что вы можете», как можно наивно попытаться, если вы привыкли к небольшим данным. Цель, как правило, заключается в том, чтобы «если вы можете просто получить крошечный smidgen из каждого элемента данных, сумма будет огромной и глубокой».
Между ними находятся наборы данных среднего размера, с хорошей структурой. Это «действительно сложные проблемы», поэтому сейчас мы стремимся объединиться в два лагеря: один с маленькими данными, сжимающими каждый последний бит, а другой с большими данными, пытающимися управлять тем, чтобы каждая точка данных сияла по-своему. правильно. По мере нашего продвижения вперед я ожидаю увидеть больше процессов с малыми данными, пытающихся адаптироваться к более крупным наборам данных, и больше процессов с большими данными, пытающихся адаптироваться для использования более структурированных данных.
источник
Я бы сказал, что есть три компонента, которые необходимы для определения больших данных: направление анализа, размер данных по населению и размер данных по вычислительным задачам.
Сам вопрос состоит в том, что гипотезы разрабатываются после того, как данные существуют. Я не использую «собранный», потому что думаю, что слово «собранный» подразумевает для какой-то цели, а данные часто существуют для неизвестных целей в то время. Сбор часто происходит в больших данных путем объединения существующих данных для обслуживания вопроса.
Вторая важная часть заключается в том, что не только какие-либо данные подходят для последующего анализа, который можно назвать исследовательским анализом с меньшими наборами данных. Он должен быть достаточного размера, чтобы считалось, что оценки, собранные на его основе, достаточно близки к оценкам совокупности, чтобы можно было игнорировать многие мелкие проблемы выборки. Из-за этого меня немного беспокоит то, что сейчас в этой области наблюдается толчок к множественным поправкам сравнения. Если у вас была целая популяция или если у вас есть веские основания полагать, что такое обоснование, такие исправления должны быть спорными. Хотя я понимаю, что иногда возникают проблемы, которые действительно превращают «большие данные» в маленькую выборку (например, большие логистические регрессии), это сводится к пониманию того, что такое большая выборка для конкретного вопроса. Многие из вопросов множественного сравнения вместо этого должны быть превращены в вопросы о размере эффекта. И, конечно, вся идея, что вы будете использовать тесты с альфа = 0,05, как многие все еще делают с большими данными, просто абсурдна.
И, наконец, небольшие группы населения не имеют права. В некоторых случаях существует небольшая популяция, и можно собрать все данные, необходимые для ее очень легкого изучения и обеспечения соответствия первым двум критериям. Данные должны быть достаточной величины, чтобы они стали вычислительной проблемой. Таким образом, в некотором смысле мы должны признать, что «большие данные» могут быть временным модным словом и, возможно, явлением, постоянно находящимся в поисках строгого определения. Некоторые из вещей, которые делают «большие данные» большими теперь, исчезнут через несколько коротких лет, и определения типа Хэдли, основанные на вычислительной мощности, покажутся странными. Но на другом уровне вычислительные проблемы - это вопросы, которые не касаются вычислительной мощности или, возможно, вычислительной мощности, которые никогда не могут быть решены. Я думаю, что в этом смысле проблемы определения "
Можно заметить, что я не предоставил примеров или четких определений того, что представляет собой сложная вычислительная проблема для этой области (есть множество примеров, как правило, в компьютерных науках, и некоторые применимые, в которые я не буду вдаваться). Я не хочу делать что-либо, потому что я думаю, что это должно остаться несколько открытым. Со временем собранные воедино работы многих людей объединяются, чтобы упростить такие вещи, чаще всего с помощью разработки программного обеспечения, чем оборудования на данном этапе. Возможно, поле должно созреть более полно, чтобы сделать это последнее требование более жестким, но края всегда будут нечеткими.
источник
Википедия дает довольно четкое определение
Другое простое определение, которое я знаю, это
К сожалению, я не помню ссылку на это. Все остальное вытекает из этих определений - вам приходится как-то иметь дело с большими объемами данных.
источник
Я хотел бы добавить, что Большие данные - это либо работа с большим набором данных (миллионы и / или миллиарды строк), либо попытка найти информацию / шаблоны в широких ресурсах данных, которые вы можете собирать сейчас повсюду.
источник