Что именно подразумевается под «набором данных»?

10

Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?

Анкит
источник
Что вы подразумеваете под «точкой данных», ожидаете ли вы, что она будет как минимум 2D? Временной ряд или набор результатов экзамена могут быть набором данных; как минимум, это могут быть только серии в одной переменной, возможно, без меток строк. Согласно ответу @FranckDernoncourt
smci
1
Я действительно просто думаю, что это набор данных. Это, конечно, то, как я использую этот термин. Я не думаю, что это слишком много для этого. Являются ли данные «необработанными» или предварительно обработанными или очищенными и т. Д., Является ортогональным.
gung - Восстановить Монику

Ответы:

9

По моему опыту, «набор данных» (или «набор данных») является неформальным термином, который относится к набору данных. Как правило, набор данных содержит более одной переменной и относится к одной теме; это может касаться одного образца.

Авторы вопросов о перекрестной проверке, которые я часто вижу, используют «набор данных» как синоним «переменная» или «вектор».

Kodiologist
источник
3
Договорились о наборе данных против переменной или вектора. Не начинайте меня с «данных», как в «У меня есть данные». И наоборот, «у меня есть набор данных» - это замечательный способ не раздражать так или иначе, раздражать тех, кто настаивает на том, что данные являются множественными, или раздражать тех, кто считает эту настойчивость педантичной, если они вообще об этом думают.
Ник Кокс
3
@NickCox В грамматических войнах за «данные» я принадлежу к наименее популярной фракции, которая утверждает, что «данные» - это массовое существительное.
Кодиолог
3
Я подозреваю, что сейчас это большинство, и более решительно думаю, что оно набирает популярность.
Ник Кокс
8

Я думаю, что Википедия делает достойную работу по определению этого:

Чаще всего набор данных соответствует содержимому одной таблицы базы данных или одной матрицы статистических данных, где каждый столбец таблицы представляет определенную переменную, а каждая строка соответствует данному члену рассматриваемого набора данных. В наборе данных перечислены значения для каждой из переменных, таких как рост и вес объекта, для каждого члена набора данных. Каждое значение называется датумом. Набор данных может содержать данные для одного или нескольких членов, соответствующие количеству строк.

Термин «набор данных» может также использоваться более свободно для обозначения данных в совокупности тесно связанных таблиц, соответствующих конкретному эксперименту или событию. Примером этого типа являются наборы данных, собранные космическими агентствами, проводящими эксперименты с приборами на борту космических зондов.

В дисциплине открытых данных набор данных - это единица измерения информации, публикуемой в общедоступном открытом хранилище данных. Европейский портал открытых данных объединяет более полумиллиона наборов данных. В этой области были предложены другие определения, но в настоящее время они не являются официальными. Некоторые другие проблемы (источники данных в реальном времени, нереляционные наборы данных и т. Д.) Усложняют достижение консенсуса по этому поводу.

Как видите, термин несколько расплывчатый.

Франк Дернонкур
источник
А в условиях компьютерного зрения набор данных может быть просто набором естественных изображений и их меток или аннотаций.
Sycorax говорит восстановить Монику
Что имеется в виду под «базой данных *?»
ankit
@ankit Традиционное значение CS для en.wikipedia.org/wiki/Database
Franck Dernoncourt
@Sycorax Да, я думаю, мы могли бы рассматривать одно изображение (или какой-либо другой сигнал) как одну базовую точку данных в базе данных.
Франк Дернонкур
7

Я думаю, что вам может потребоваться определить точку данных, прежде чем вы сможете определить набор данных : почему один примитив и не нуждается в определении, а не наоборот?

По крайней мере, два определения имеют смысл для меня:

  1. Одно или несколько наблюдений (наблюдения, записи, строки) для одной или нескольких переменных (полей. Столбцов).

  2. Все, что хранится в виде данных в файле, читаемом выбранной программой.

Табличное расположение является обычным явлением, но я не думаю, что оно является частью какого-либо определения; Естественно, как данные хранятся, может быть практически важным.

PS Слово «формат» настолько перегружено, что для меня его лучше избегать, если не указано однозначно. Я видел это используется для

  1. Общий или специальный текстовый или двоичный формат файла

  2. Структура данных, например, табличная или другая

  3. Хранение данных или типы переменных, например, бит, целое, вещественное, символьное

  4. Формат отображения, управляющий презентацией, например, информация о количестве десятичных знаков; десятичное, шестнадцатеричное или двоичное отображение.

Ник Кокс
источник
6

Здесь уже есть несколько хороших ответов, и я не думаю, что смогу глубже, чем Ник Кокс или Франк Дернонкур, разобраться в том, относится ли «набор данных» к концептуальному сбору связанных данных или к конкретному расположению этих данных, например, в таблица / матрица или машиночитаемый файл. Извлечение Франка упоминает крайние случаи, такие как непрерывно собираемые данные или данные, распределенные по нескольким таблицам, о которых стоит помнить, если вы предполагаете, что будет простое определение. (Не все программы статистики могут с этим справиться, но очень легко представить себе случай, когда данные хранятся в реляционной базе данных с несколькими таблицами. Является ли вся база данных одним «набором данных»?)

Однако я добавлю одну вещь: наборы данных, как правило, не являются наборами в математическом смысле! Sensu stricto либо набор содержит объект, либо нет, но не может содержать более одной копии этого объекта. Если я бросить кубик восемь раз и оценка 1, 4, 3, 5, 5, 4, 6, 4 , то набор баллов проката просто {1, 3, 4, 5, 6}. Обратите внимание, что элементы могут быть в любом порядке, я только что написал их по возрастанию по значению, но, например, набор {5, 4, 1, 6, 3} математически равен ему. Это не то, что мы обычно подразумеваем под набором данных!

Мультимножеством (или пакет ) позволяет записи необходимо повторить, например , {1, 4, 3, 5, 5, 4, 6, 4} , хотя примечание это по- прежнему не включает в себя чувство порядка, так равно {1, 3, 4, 4, 4, 5, 5, 6}. Возможно, «набор» в «наборе данных» лучше всего читать как «мультимножество». Более того, если вы хотите сохранить порядок, вместо этого вы можете использовать вектор: (1, 4, 3, 5, 5, 4, 6, 4) не совпадает с (1, 3, 4, 4, 4, 5, 5, 6). Порядок дает нам индекс, который может служить своего рода идентификатором - например, он говорит: «какая четверка какая?» - и который часто служит для записи наблюдений в их естественном временном или географическом порядке. Когда видны формулы, такие какx1x2x¯=1ni=1nxiПредполагается такая схема индексации. Что бы значило или в контексте набора или мультимножества, учитывая, что мы не можем различить «первый» или «второй» элемент из-за отсутствия упорядочения?x1x2

Но векторы предназначены только для записи одной переменной - для нескольких может быть удобнее использовать матрицу для табулирования с сохранением порядка. Для более сложных ситуаций, таких как измерение свойства трехмерной сетки вокселей во времени, вы можете даже перейти к упорядочению данных в тензор (см., Например, этот вопрос ).

Но обратите внимание, что концептуально мультимножества может быть достаточно в большинстве простых ситуаций, даже если это неудобно для практических целей. Если бы я бросил монету одновременно с бросанием кубика и хотел записать два результата вместе, то я мог бы использовать мультимножество, такое как {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} вместо матрицы. Обычного набора будет недостаточно, так как он не будет учитывать кратность (4, H), например.

тарпон
источник
1
Я мог бы купить идею о том, что набор данных - это набор наблюдений с единственной складкой, которая может потребоваться для определения их идентификаторов. Но вы правы, что значение здесь немного отличается от значения в теории множеств. Подчеркните, как вы намекаете здесь, что порядок наблюдений часто имеет решающее значение и будет часто, но не всегда, определяться временной или другой упорядоченной (ыми) переменной (ами).
Ник Кокс
@NickCox (+1) Действительно, я еще не нашел времени или, более того, способа выразить то, что наблюдения часто сопровождаются идентификатором - иногда временным, иногда основанным на местоположении, иногда и тем, и другим. Когда мы кодируем данные в вектор, матрицу или тензор, который часто напрямую предоставляет требуемую структуру, и явный идентификатор (например, жестко закодированный индекс) может оказаться ненужным, особенно если важен только порядок или относительная позиция. Без сомнения, для всего этого есть правильная терминология.
Серебряная рыба
У меня нет проблем с тем, что порядок не имеет значения. Это не с одной переменной. Порядок имеет значение, когда у вас есть пары значений X, скажем, время измерения. Но тогда мы действительно можем думать, что точки многомерны, и порядок набора многомерных данных снова не имеет значения. У меня также нет проблем с мыслью о том, что в действительности существует или подразумеваемый идентификатор, который делает две 5 уникальными.
gung - Восстановить Монику
@ Gung Я думал о наборах данных, в которых подразумевается время или последовательный порядок. Я бы сказал, что это плохая практика, и теперь нет необходимости в том, чтобы не иметь явной переменной порядка, но отсутствие такой переменной порядка не лишает возможности быть набором данных. Фактически, в 1970-х я обычно обрабатывал пространственные ряды с неявным идентификатором, потому что мои собственные программы на Фортране делали (не тривиальным) труд, вводя один ненужный.
Ник Кокс
Мне кажется, это нормально, @NickCox. Я бы сказал, что переменная порядка неявна, в этом случае, но в некотором смысле все еще там.
gung - Восстановить Монику