Что такое большие данные?

44

Мне несколько раз задавали вопрос:

Что такое Big-Data?

И студентами, и моими родственниками, которые накапливают шум вокруг статистики и ML.

Я нашел это резюме . И я чувствую, что согласен с единственным ответом там.

На странице Википедии также есть некоторые комментарии, но я не уверен, действительно ли я согласен со всем там.

РЕДАКТИРОВАТЬ: (Я чувствую, что на странице Википедии не хватает объяснения методов решения этой проблемы и парадигмы, которую я упоминаю ниже) .

Недавно я посетил лекцию Эммануэля Кэндеса , где он представил парадигму больших данных как

Сначала данные Задайте вопросы позже

В этом главное отличие исследований, основанных на гипотезах, когда вы сначала формулируете гипотезу, а затем собираете данные, чтобы что-то сказать о ней.

Он много занимался вопросами количественной оценки достоверности гипотез, генерируемых отслеживанием данных. Главное, что я извлек из его лекции, это то, что нам действительно нужно начать контролировать FDR, и он представил для этого метод подделки .

Я думаю, что у CV должен быть вопрос о том, что такое Big-Data и какое у вас определение. Я чувствую, что существует так много разных «определений» , что трудно действительно понять, что это такое, или объяснить это другим, если нет общего консенсуса относительно того, из чего оно состоит.

Я чувствую, что «определение / парадигма / описание», предоставленное Candès, является самым близким, с чем я согласен, что вы думаете?

РЕДАКТИРОВАТЬ 2: Я чувствую, что ответ должен предоставить нечто большее, чем просто объяснение самих данных. Это должна быть комбинация данных / методов / парадигмы.

EDIT3: я чувствую, что это интервью с Майклом Джорданом может также добавить что-то к столу.

РЕДАКТИРОВАТЬ 4: Я решил выбрать самый высокий голос как правильный. Хотя я думаю, что все ответы добавляют что-то к обсуждению, и я лично чувствую, что это больше вопрос парадигмы того, как мы генерируем гипотезы и работаем с данными. Я надеюсь, что этот вопрос послужит источником рекомендаций для тех, кто ищет Big-Data. Я надеюсь, что страница Википедии будет изменена, чтобы еще больше подчеркнуть проблему множественного сравнения и контроля FDR.

Gumeo
источник
55
«Большие данные похожи на подростковый секс: все говорят об этом, никто на самом деле не знает, как это сделать, все думают, что все остальные делают это, поэтому все утверждают, что делают это». Саймон Мэтьюз
Александр Луценко
4
эта цитата больше не действительна. Люди делают много необычных работ в последнее время. Если вы посмотрите на соревнования в Kaggle, компании улучшают свой бизнес и зарабатывают много денег, не тратя много денег. Другие примеры применения больших данных можно найти здесь: linkedin.com/pulse/…
Metariat
5
@XuanQuangDO, я согласен. Не принимайте эту цитату всерьез.
Александр Луценко
6
@XuanQuangDO: ну, я уверен, что некоторые подростки занимаются необыкновенным сексом, но это не меняет того факта, что много некомпетентных или вводящих в заблуждение, а также бездельников, которые люди будут безжалостно дразнить ;-)
Стив Джессоп,

Ответы:

54

Я имел удовольствие присутствовать на лекции доктора Хэдли Уикхэма о славе RStudio. Он определил это так, что

  • Большие данные: не помещается в память на одном компьютере:> 1 ТБ
  • Средние данные: помещается в памяти на сервере: 10 ГБ - 1 ТБ
  • Небольшие данные: помещается в память ноутбука: <10 ГБ

Хэдли также считает, что большинство данных, по крайней мере, может быть сведено к управляемым проблемам, и что очень небольшое количество - это действительно большие данные. Он обозначает это как «Мираж больших данных».

  • 90% Может быть сведено к небольшой / средней проблеме данных с поднабором / выборкой / суммированием
  • 9% Может быть уменьшено до очень большого количества небольших проблем с данными
  • 1% неснижаемо велик

Слайды можно найти здесь .

Крис С
источник
2
@ GuðmundurEinarsson, я только что отредактировал его, спасибо за предложение.
Крис C
5
Хотя я не думаю, что существуют четкие границы, я думаю, что этот пост очень проницательный. Когда я работал в компании SW, я общался с несколькими клиентами, которые искали « решения для больших данных »; на самом деле они пропустили 16 ГБ SODIMM.
usεr11852 говорит восстановить Monic
2
В настоящее время с твердотельными накопителями емкостью 1 ТБ энергонезависимое хранилище не слишком далеко от энергозависимого хранилища по скорости. Я чувствую, что ожидаю, что большие данные будут больше 1 ТБ, может быть, по крайней мере, 50 ТБ или что-то в этом роде.
Мердад
3
При всем уважении к вам и Хэдли, данные о ставках касаются не только объема. Обычно ставки данных определяется с помощью 3V и, совсем недавно, модель (предложенная Gartner) - см ответ на Dawny33 ниже. Тем не менее, некоторые эксперты (в том числе из Gartner) рассматривают еще один, и они утверждают, самое важное, V измерение, где V означает ценность для бизнеса . Например, сослаться на этот пост и этот пост .
Александр Блех,
2
@AleksandrBlekh Ваш комментарий содержит как детальное обсуждение противоречий вокруг критериев «больших данных» среди экспертов, так и некоторые ссылки в поддержку ваших утверждений об этом. Я думаю, что вы должны рассмотреть вопрос о преобразовании его в ответ.
Серебряная
19

Набор данных / поток называется Big Data, если он удовлетворяет всем четырем V

  • объем
  • Скорость
  • правдивость
  • разнообразие

Если и до тех пор, пока он не будет удовлетворен, набор данных нельзя назвать большими данными.

Подобный ответ мой, для справки.


Сказав это, как ученый данных; Я считаю, что фреймворк Map-Reduce действительно хорош. Разделение ваших данных, их отображение, а затем результаты шага картографирования сводятся в один результат. Я нахожу этот фреймворк действительно увлекательным, и как он принес пользу миру данных.

И вот несколько способов, как я справляюсь с проблемой данных во время моей повседневной работы:

  1. Столбчатые базы данных: это дар для исследователей данных. Я использую Aws Red Shift в качестве моего столбцового хранилища данных. Это помогает в выполнении сложных запросов SQL и объединяет меньше боли. Я нахожу это действительно хорошим, особенно когда моя команда по развитию задает несколько действительно сложных вопросов, и мне не нужно говорить «Да, мы выполнили запрос; мы получим его через день!»
  2. Spark и Map Reduce Framework: причины были объяснены выше.

И вот как проводится эксперимент с данными:

  • Проблема, на которую нужно ответить, определена
  • Возможные источники данных теперь перечислены.
  • Конвейеры предназначены для передачи данных в Redshift из локальных баз данных. Да, Спарк приходит сюда. Это действительно удобно во время перемещения данных БД -> S3 -> Redshift.
  • Затем выполняются запросы и анализ SQL для данных в Redshift.

Да, существуют алгоритмы Больших Данных, такие как гиперблог и т. Д .; но я не нашел необходимости использовать их.

Так да. Данные собираются в первую очередь перед созданием гипотезы.

Dawny33
источник
5
Я согласен с этими вещами, но я думаю, что термин «большие данные» охватывает нечто большее, чем сами данные. Это также методы, применяемые к нему, и парадигма сбора данных, прежде чем выдвигать гипотезы об этом.
Гумео
1
@ GuðmundurEinarsson Я спешил, поэтому хотел дать вам лучший ответ в скором времени. Итак, теперь я отредактировал и расширил его с учетом рабочего процесса и понимания моего ежедневного опыта работы с большими данными в отрасли.
Dawny33
1
Четыре V здесь инвертируются как определяющие большие данные, а не как важные примечательные свойства больших данных. Можно привести множество примеров больших данных без нескольких из этих 4, а некоторые даже перечислены в инфографике IBM.
Джон
@ Джон Да, V действительно сильно меняются. Есть также аргумент в пользу нового V ( Value )
Dawny33 19.10.15
1
Я не говорю, что они меняются, я говорю, что вы неправильно меняете описание некоторых свойств в определение. Это похоже на то, как кто-то описывает им важные вещи о собаке как верность, смех и облизывание, а кто-то еще приходит и говорит, что это определение собаки. Тем не менее, я думаю, что вы были на правильном пути, рассматривая изменение направления анализа, но это просто необходимо привязать к размеру данных таким образом. Я думаю, что есть много хороших способов сделать это, и было бы здорово, если бы вы разработали один.
Джон
14

Я думаю, что единственное полезное определение больших данных - это данные, которые каталогизируют всю информацию о конкретном явлении. Под этим я подразумеваю, что вместо выборки из некоторой популяции, представляющей интерес, и сбора некоторых измерений по этим единицам, большие данные собирают измерения по всей популяции, представляющей интерес. Предположим, вы заинтересованы в клиентах Amazon.com. Amazon.com может собирать информацию обо всех покупках своих клиентов, а не только отслеживать некоторых пользователей или отслеживать только некоторые транзакции.

На мой взгляд, определения, которые зависят от объема памяти самих данных, имеют несколько ограниченную полезность. По этой метрике, учитывая достаточно большой компьютер, никакие данные на самом деле не являются большими данными. В экстремальных условиях бесконечно большого компьютера этот аргумент может показаться редуцирующим, но рассмотрим случай сравнения моего ноутбука потребительского уровня с серверами Google. Ясно, что у меня возникнут огромные проблемы с логистикой, когда я пытаюсь перебрать терабайт данных, но у Google есть ресурсы, чтобы справиться с этой задачей довольно легко. Что еще более важно, размер вашего компьютера не является внутренним свойством данных , поэтому определение данных исключительно со ссылкой на любую имеющуюся у вас технологию, похоже на измерение расстояния с точки зрения длины ваших рук.

Этот аргумент не просто формализм. Потребность в сложных схемах распараллеливания и распределенных вычислительных платформах исчезает, когда вы обладаете достаточной вычислительной мощностью. Поэтому, если мы примем определение, что Большие Данные слишком велики, чтобы поместиться в ОЗУ (или вылетает Excel, или что-то еще), то после обновления наших машин Большие Данные перестают существовать. Это кажется глупым.

Но давайте посмотрим на некоторые данные о больших данных, и я назову это «Большие метаданные». В этой записи блога наблюдается важная тенденция: доступная оперативная память увеличивается быстрее, чем объемы данных, и провокационно заявляет, что «большая оперативная память съедает большие данные», то есть при достаточной инфраструктуре у вас больше нет проблем с большими данными, вы просто есть данные, и вы возвращаетесь в область традиционных методов анализа.

Более того, разные методы представления будут иметь разные размеры, поэтому не совсем ясно, что означает определение «больших данных» в зависимости от их размера в памяти. Если ваши данные построены таким образом, что хранится много избыточной информации (то есть вы выбираете неэффективное кодирование), вы можете легко переступить порог того, что ваш компьютер может легко обработать. Но почему вы хотите, чтобы определение имело это свойство? По моему мнению, набор данных «большие данные» не должен зависеть от того, сделали ли вы эффективный выбор в дизайне исследования.

104107наблюдения, и это совершенно нормально. Это также подразумевает, что большие данные, как я их определяю, могут не нуждаться в специализированных технологиях, помимо тех, которые мы разработали в классической статистике: выборки и доверительные интервалы по-прежнему являются совершенно полезными и надежными инструментами вывода, когда вам необходимо экстраполировать. Линейные модели могут дать вполне приемлемые ответы на некоторые вопросы. Но большие данные, как я их определяю, могут потребовать новых технологий. Возможно, вам нужно классифицировать новые данные в ситуации, когда у вас есть больше предикторов, чем обучающих данных, или когда ваши предикторы растут в зависимости от размера ваших данных. Эти проблемы потребуют новых технологий.


Кроме того, я думаю, что этот вопрос важен, потому что он косвенно затрагивает, почему определения важны - то есть, для кого вы определяете тему. Обсуждение сложения для первоклассников начинается не с теории множеств, а со ссылки на подсчет физических объектов. По моему опыту, большая часть использования термина «большие данные» встречается в популярной прессе или при общении между людьми, которые не являются специалистами в области статистики или машинного обучения (например, маркетинговые материалы, требующие профессионального анализа), и он используется для выразить идею о том, что современные компьютерные практики означают, что имеется огромное количество доступной информации, которую можно использовать. Это почти всегда в контексте данных, раскрывающих информацию о потребителях, которая, возможно, если не частная, то не сразу очевидна.

Таким образом, коннотация и анализ, связанные с общим использованием «больших данных», также несут в себе идею, что данные могут раскрывать неясные, скрытые или даже личные детали жизни человека, при условии применения достаточного логического метода. Когда средства массовой информации сообщают о больших данных, это, как правило, приводит к ухудшению анонимности - определение того, что такое «большие данные», кажется несколько ошибочным в этом свете, потому что популярная пресса и неспециалисты не заботятся о достоинствах случайного выбора. леса и машины опорных векторов и т. д., и при этом они не понимают проблем анализа данных в различных масштабах. И это нормально.Беспокойство с их точки зрения сосредоточено на социальных, политических и правовых последствиях информационного века. Точное определение для СМИ или неспециалистов не очень полезно, потому что их понимание также не является точным. (Не думайте, что я самодовольный - я просто замечаю, что не каждый может быть экспертом во всем.)

Восстановить Монику
источник
7
Этот. «По моему опыту, большая часть использования термина« большие данные »встречается в популярной прессе или при общении между людьми, которые не являются специалистами в области статистики или машинного обучения (например, маркетинговые материалы, требующие профессионального анализа)»
Момо
2
Я думаю, что ты ударил гвоздь по голове своим последним абзацем. Я думаю, что существует очень четкий разрыв между пониманием популярной прессы и тем, что люди в статистике / ML / Data Science считают термином большие данные. Я просто чувствую, что должно быть более четкое согласие относительно того, что это на самом деле. Одной из причин этого является наличие такой ссылки, чтобы люди не могли манипулировать этим термином или злоупотреблять им, когда он явно не применим.
Гумео
1
Я думаю, что я начинаю соглашаться с вами все больше и больше. Я все еще чувствую, что резюме нуждается в справочном вопросе, где люди, которые заинтересованы и в предмете, помещают свои два цента по этому вопросу. Я искал здесь вопросы и чувствовал, что этого обсуждения не хватает.
Gumeo
1
Я думаю, что это ценный разговор, и я рад, что вы задали вопрос! И я рад, что вы нашли мои комментарии полезными.
Восстановить Монику
1
Я люблю этот ответ по нескольким причинам. Во-первых, я думаю, что очень важно подчеркнуть, что «большие данные» имеют мало общего с алгоритмами, используемыми для их анализа. Большинству из них 20-30 лет (случайный лес, линейная регрессия и т. Д.), И они работают просто отлично. Некоторые люди в отрасли считают, что «большие данные» объединяются с причудливыми новыми алгоритмами, потому что они, вероятно, даже не знали, что машинное обучение существует уже много лет. Во-вторых, «большие данные» не о размере. Если у вас есть сервер с 128 ГБ ОЗУ и вы можете поместить все в память, это просто замечательно. (продолжение)
скд
7

введите описание изображения здесь

Перебирая огромную литературу по «Большим данным», я собрал до 14 «V» терминов, 13 из них примерно по 11 измерениям:

  • Срок действия,
  • Стоимость,
  • Изменчивость / отклонение,
  • Разнообразие,
  • Скорость,
  • Достоверность / Veraciousness,
  • Жизнеспособность,
  • Виртуальность,
  • Визуализация,
  • Изменчивость,
  • Объем.

14-й срок - Вакууит. Согласно недавнему провокационному сообщению, больших данных не существует . Его основные моменты таковы:

  • «Большие данные» не большие
  • Большинство «больших данных» на самом деле бесполезны
  • [Мы должны быть] Максимально используя небольшие данные

Правильное определение больших данных будет зависеть от аппаратного обеспечения, программного обеспечения, потребностей и знаний и, вероятно, не должно зависеть от фиксированного размера. Следовательно, пригодное для использования определение в Больших данных: следующий рубеж для инноваций, конкуренции и производительности , июнь 2011 года:

«Большие данные» относятся к наборам данных, размер которых превышает возможности типичных программных инструментов базы данных для сбора, хранения, управления и анализа.

Лоран Дюваль
источник
1
Ссылочная статья «пустота» кажется ужасно слабой. Подразумевается, что 30 ГБ данных / день невелики (и этот размер является единственным компонентом определения). Кроме того, утверждается, что поскольку компании говорят, что их данные намного больше, чем на самом деле, это означает, что они не велики. Там нет определения больших данных нигде. И во всех примерах, использованных для предположения «не большой», многие из V перечислены здесь.
Джон
«Пустота» не распространяется только на размер. В самом деле, в заключительном однострочнике определение большого предназначается для развития в соответствии с текущим состоянием практики. То, что было большим в прошлом, можно считать маленьким через несколько лет. Здесь я использовал термин для случая, когда «большие данные» используются в качестве магической мантры с небольшим количеством вещества, как показано на рисунке выше.
Лоран Дюваль
1
Насколько вероятно, что все 14 критериев начнутся с буквы V? Мы все люди со статистикой, давай!
Аксакал
В принципе, я согласен, это было только для того, чтобы показать, что такой термин, как Большие данные, скорее относится к сфере маркетинга, чем к статистике. Тем не менее, я хотел бы поделиться своей «коллекцией» терминов, которые я прочитал. Оно началось с 3 В, затем 5 В, а иногда и 7 и т. Д. Этот термин может смутно помочь определить черты данных, которые у вас есть
Лоран Дюваль
4

Люди, кажется, зациклены на большом квалификаторе в Big Data. Тем не менее, размер является лишь одним из компонентов этого термина (домена). Недостаточно, чтобы ваш набор данных был большим, чтобы назвать вашу проблему (область) большими данными, вам также нужно, чтобы это было трудно понять, проанализировать и даже обработать. Некоторые называют эту функцию неструктурированной , но это не только структура, но и неясные отношения между различными частями и элементами данных.

Рассмотрим наборы данных, которые физики высоких энергий работают в таких местах, как ЦЕРН . Они работали с данными о размере петабайтов в течение многих лет, прежде чем был введен термин « Большие данные» . Но даже сейчас они не называют эти большие данные, насколько я знаю. Почему? Поскольку данные довольно регулярны, они знают, что с ними делать. Возможно, они пока не смогут объяснить каждое наблюдение, поэтому они работают над новыми моделями и т. Д.

Теперь мы называем большие данные проблемами, связанными с наборами данных, размеры которых могут быть сгенерированы за несколько секунд из LHC в CERN. Причина в том, что эти наборы данных, как правило, состоят из элементов данных, поступающих из множества источников с различными форматами, неясных отношений между данными и неопределенной ценности для бизнеса. Это может быть всего 1 ТБ, но так сложно обработать все аудио, видео, тексты, речь и т. Д. Таким образом, с точки зрения сложности и требуемых ресурсов это превосходит петабайты данных ЦЕРН. Мы даже не знаем, есть ли в наших наборах данных полезная информация.

Следовательно, решение проблем больших данных включает в себя анализ, извлечение элементов данных неизвестного значения, а затем связывание их друг с другом. "Разбор" изображения может быть большой проблемой сам по себе. Скажем, вы ищете кадры видеонаблюдения с улиц города, пытаясь выяснить, становятся ли люди злее и влияет ли это на дорожные происшествия с участием пешеходов. Есть тонна видео, вы находите лица, пытаетесь измерить их настроение по выражениям, а затем связываете это с количеством наборов данных о несчастных случаях, полицейскими отчетами и т. Д., И все это при контроле погоды (преципитат, температура) и пробок на дорогах. Вам необходимы инструменты хранения и анализа, которые поддерживают эти большие наборы данных различного типа и могут эффективно связывать данные друг с другом.

Большие данные - это сложная проблема анализа, сложность которой зависит как от огромного размера, так и от сложности структуры и кодирования информации в ней.

Аксакал
источник
Хороший вклад. Люди часто пропускают контраст между LHC и проблемой данных CCTV.
Гумео
3

Я думаю, что причина, по которой люди путаются в том, что такое большие данные, заключается в том, что они не видят их преимуществ. Значение Big Data (техника) зависит не только от объема данных, которые вы можете собрать, но и от прогнозирующего моделирования, которое в конечном итоге становится более важным:

  1. Прогнозирующее моделирование полностью изменило способ, которым мы выполняем статистику и прогнозы, оно дает нам лучшее понимание наших данных, потому что новые модели, новые методы могут лучше обнаруживать тенденции, шумы данных, могут собирать «многомерную» базу данных. Чем больше измерений у нас в базе данных, тем больше шансов, что мы сможем создать хорошую модель. Прогнозирующее моделирование является основой ценности больших данных.
  2. Большие данные (с точки зрения размера данных) являются предварительным этапом и предназначены для обслуживания прогнозирующего моделирования путем: обогащения базы данных по: 1. количеству предикторов (больше переменных), 2. количеству наблюдений.

Больше предикторов, потому что теперь мы можем собирать данные, которые раньше было невозможно захватить (из-за ограниченной мощности оборудования, ограниченной способности работать с неструктурированными данными). Чем больше предикторов, тем больше шансов получить значимые предикторы, то есть лучшую модель, лучший прогноз, лучшее решение для бизнеса.

Дополнительные наблюдения не только делают модель более устойчивой с течением времени, но также помогают модели изучать / обнаруживать все возможные модели, которые могут быть представлены / сгенерированы в реальности.

Metariat
источник
3

Хитрость Big Data в сравнении с его антонимом (предположительно Small Data?) Заключается в том, что это континуум. Люди с большими данными перешли на одну сторону спектра, люди с маленькими данными - к другой, но на песке нет четкой линии, с которой все могли бы согласиться.

Я бы посмотрел на поведенческие различия между ними. В ситуациях с небольшими данными у вас есть «маленький» набор данных, и вы стремитесь сжать как можно больше информации о каждой точке данных, которую вы можете. Получите больше данных, вы можете получить больше результатов. Однако получение большего количества данных может быть дорогим. Собираемые данные часто ограничены, чтобы соответствовать математическим моделям, таким как выполнение частичного факториала тестов для выявления интересного поведения.

В ситуациях с большими данными у вас есть «большой» набор данных, но ваш набор данных не столь ограничен. Обычно вам не удается убедить своих клиентов купить латинский квадрат мебели, просто чтобы облегчить анализ. Вместо этого у вас, как правило, есть скопления плохо структурированных данных. Чтобы решить эти проблемы, цель состоит не в том, чтобы «выбрать лучшие данные и выжать из них все, что вы можете», как можно наивно попытаться, если вы привыкли к небольшим данным. Цель, как правило, заключается в том, чтобы «если вы можете просто получить крошечный smidgen из каждого элемента данных, сумма будет огромной и глубокой».

Между ними находятся наборы данных среднего размера, с хорошей структурой. Это «действительно сложные проблемы», поэтому сейчас мы стремимся объединиться в два лагеря: один с маленькими данными, сжимающими каждый последний бит, а другой с большими данными, пытающимися управлять тем, чтобы каждая точка данных сияла по-своему. правильно. По мере нашего продвижения вперед я ожидаю увидеть больше процессов с малыми данными, пытающихся адаптироваться к более крупным наборам данных, и больше процессов с большими данными, пытающихся адаптироваться для использования более структурированных данных.

Корт Аммон
источник
Ваша характеристика маленьких данных звучит очень похоже на книгу Бема по анализу. Пожалуйста, ознакомьтесь с критикой этого, потому что это неправильный способ обработки небольших наборов данных, кроме частного исследования, на котором будет основываться сбор данных в будущем.
Джон
@ Джон, возможно, мне придется взглянуть на них. Достаточно ли критики, что я даже не могу использовать характеристику как точку для описания континуума?
Корт Аммон
Это очень долго, но главное, что вы не выдавливаете все, что можете, из каждого набора данных с небольшими данными. Возможно, Google Gelman и Forking Paths; или экспериментатор степеней свободы. Вы должны думать о малых и больших данных анализа по-разному, а не просто как точки на континууме.
Джон
3

Я бы сказал, что есть три компонента, которые необходимы для определения больших данных: направление анализа, размер данных по населению и размер данных по вычислительным задачам.

Сам вопрос состоит в том, что гипотезы разрабатываются после того, как данные существуют. Я не использую «собранный», потому что думаю, что слово «собранный» подразумевает для какой-то цели, а данные часто существуют для неизвестных целей в то время. Сбор часто происходит в больших данных путем объединения существующих данных для обслуживания вопроса.

Вторая важная часть заключается в том, что не только какие-либо данные подходят для последующего анализа, который можно назвать исследовательским анализом с меньшими наборами данных. Он должен быть достаточного размера, чтобы считалось, что оценки, собранные на его основе, достаточно близки к оценкам совокупности, чтобы можно было игнорировать многие мелкие проблемы выборки. Из-за этого меня немного беспокоит то, что сейчас в этой области наблюдается толчок к множественным поправкам сравнения. Если у вас была целая популяция или если у вас есть веские основания полагать, что такое обоснование, такие исправления должны быть спорными. Хотя я понимаю, что иногда возникают проблемы, которые действительно превращают «большие данные» в маленькую выборку (например, большие логистические регрессии), это сводится к пониманию того, что такое большая выборка для конкретного вопроса. Многие из вопросов множественного сравнения вместо этого должны быть превращены в вопросы о размере эффекта. И, конечно, вся идея, что вы будете использовать тесты с альфа = 0,05, как многие все еще делают с большими данными, просто абсурдна.

И, наконец, небольшие группы населения не имеют права. В некоторых случаях существует небольшая популяция, и можно собрать все данные, необходимые для ее очень легкого изучения и обеспечения соответствия первым двум критериям. Данные должны быть достаточной величины, чтобы они стали вычислительной проблемой. Таким образом, в некотором смысле мы должны признать, что «большие данные» могут быть временным модным словом и, возможно, явлением, постоянно находящимся в поисках строгого определения. Некоторые из вещей, которые делают «большие данные» большими теперь, исчезнут через несколько коротких лет, и определения типа Хэдли, основанные на вычислительной мощности, покажутся странными. Но на другом уровне вычислительные проблемы - это вопросы, которые не касаются вычислительной мощности или, возможно, вычислительной мощности, которые никогда не могут быть решены. Я думаю, что в этом смысле проблемы определения "

Можно заметить, что я не предоставил примеров или четких определений того, что представляет собой сложная вычислительная проблема для этой области (есть множество примеров, как правило, в компьютерных науках, и некоторые применимые, в которые я не буду вдаваться). Я не хочу делать что-либо, потому что я думаю, что это должно остаться несколько открытым. Со временем собранные воедино работы многих людей объединяются, чтобы упростить такие вещи, чаще всего с помощью разработки программного обеспечения, чем оборудования на данном этапе. Возможно, поле должно созреть более полно, чтобы сделать это последнее требование более жестким, но края всегда будут нечеткими.

Джон
источник
спасибо за ваш вклад! Я думаю, что вы предоставляете ценные идеи для этой темы. Я думаю, что размер данных по населению здесь несколько упускают из виду.
Gumeo
1

Википедия дает довольно четкое определение

Большие данные - это широкий термин для наборов данных, настолько больших или сложных, что традиционные приложения для обработки данных неадекватны. (источник https://en.wikipedia.org/wiki/Big_data )

Другое простое определение, которое я знаю, это

Данные, которые не соответствуют памяти компьютера.

К сожалению, я не помню ссылку на это. Все остальное вытекает из этих определений - вам приходится как-то иметь дело с большими объемами данных.

Тим
источник
0

Я хотел бы добавить, что Большие данные - это либо работа с большим набором данных (миллионы и / или миллиарды строк), либо попытка найти информацию / шаблоны в широких ресурсах данных, которые вы можете собирать сейчас повсюду.

Йохан Обадия
источник