Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?
dataset
terminology
definition
Анкит
источник
источник
Ответы:
По моему опыту, «набор данных» (или «набор данных») является неформальным термином, который относится к набору данных. Как правило, набор данных содержит более одной переменной и относится к одной теме; это может касаться одного образца.
Авторы вопросов о перекрестной проверке, которые я часто вижу, используют «набор данных» как синоним «переменная» или «вектор».
источник
Я думаю, что Википедия делает достойную работу по определению этого:
Как видите, термин несколько расплывчатый.
источник
Я думаю, что вам может потребоваться определить точку данных, прежде чем вы сможете определить набор данных : почему один примитив и не нуждается в определении, а не наоборот?
По крайней мере, два определения имеют смысл для меня:
Одно или несколько наблюдений (наблюдения, записи, строки) для одной или нескольких переменных (полей. Столбцов).
Все, что хранится в виде данных в файле, читаемом выбранной программой.
Табличное расположение является обычным явлением, но я не думаю, что оно является частью какого-либо определения; Естественно, как данные хранятся, может быть практически важным.
PS Слово «формат» настолько перегружено, что для меня его лучше избегать, если не указано однозначно. Я видел это используется для
Общий или специальный текстовый или двоичный формат файла
Структура данных, например, табличная или другая
Хранение данных или типы переменных, например, бит, целое, вещественное, символьное
Формат отображения, управляющий презентацией, например, информация о количестве десятичных знаков; десятичное, шестнадцатеричное или двоичное отображение.
источник
Здесь уже есть несколько хороших ответов, и я не думаю, что смогу глубже, чем Ник Кокс или Франк Дернонкур, разобраться в том, относится ли «набор данных» к концептуальному сбору связанных данных или к конкретному расположению этих данных, например, в таблица / матрица или машиночитаемый файл. Извлечение Франка упоминает крайние случаи, такие как непрерывно собираемые данные или данные, распределенные по нескольким таблицам, о которых стоит помнить, если вы предполагаете, что будет простое определение. (Не все программы статистики могут с этим справиться, но очень легко представить себе случай, когда данные хранятся в реляционной базе данных с несколькими таблицами. Является ли вся база данных одним «набором данных»?)
Однако я добавлю одну вещь: наборы данных, как правило, не являются наборами в математическом смысле! Sensu stricto либо набор содержит объект, либо нет, но не может содержать более одной копии этого объекта. Если я бросить кубик восемь раз и оценка 1, 4, 3, 5, 5, 4, 6, 4 , то набор баллов проката просто {1, 3, 4, 5, 6}. Обратите внимание, что элементы могут быть в любом порядке, я только что написал их по возрастанию по значению, но, например, набор {5, 4, 1, 6, 3} математически равен ему. Это не то, что мы обычно подразумеваем под набором данных!
Мультимножеством (или пакет ) позволяет записи необходимо повторить, например , {1, 4, 3, 5, 5, 4, 6, 4} , хотя примечание это по- прежнему не включает в себя чувство порядка, так равно {1, 3, 4, 4, 4, 5, 5, 6}. Возможно, «набор» в «наборе данных» лучше всего читать как «мультимножество». Более того, если вы хотите сохранить порядок, вместо этого вы можете использовать вектор: (1, 4, 3, 5, 5, 4, 6, 4) не совпадает с (1, 3, 4, 4, 4, 5, 5, 6). Порядок дает нам индекс, который может служить своего рода идентификатором - например, он говорит: «какая четверка какая?» - и который часто служит для записи наблюдений в их естественном временном или географическом порядке. Когда видны формулы, такие какx1x2x¯=1n∑ni=1xi Предполагается такая схема индексации. Что бы значило или в контексте набора или мультимножества, учитывая, что мы не можем различить «первый» или «второй» элемент из-за отсутствия упорядочения?x1 x2
Но векторы предназначены только для записи одной переменной - для нескольких может быть удобнее использовать матрицу для табулирования с сохранением порядка. Для более сложных ситуаций, таких как измерение свойства трехмерной сетки вокселей во времени, вы можете даже перейти к упорядочению данных в тензор (см., Например, этот вопрос ).
Но обратите внимание, что концептуально мультимножества может быть достаточно в большинстве простых ситуаций, даже если это неудобно для практических целей. Если бы я бросил монету одновременно с бросанием кубика и хотел записать два результата вместе, то я мог бы использовать мультимножество, такое как {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} вместо матрицы. Обычного набора будет недостаточно, так как он не будет учитывать кратность (4, H), например.
источник