Распознавание человеческой деятельности с помощью набора данных смартфона

Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне уместится здесь. В рамках моего курса по анализу данных для студентов я выбрал проект по распознаванию человеческой деятельности с использованием наборов данных смартфона. Что касается меня, то эта тема касается машинного обучения и опорных векторных машин. Я еще не очень хорошо знаком с этими технологиями, поэтому мне понадобится помощь.

Я решил следовать этой идее проекта http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (первый проект сверху). Цель проекта - определить, чем занимается человек участие (например, WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) из данных, записанных смартфоном (Samsung Galaxy S II) на талии субъекта. Используя встроенный акселерометр и гироскоп, данные включают 3-осевое линейное ускорение и 3-осевую угловую скорость с постоянной частотой 50 Гц.

Весь набор данных приведен в одной папке с некоторыми описаниями и метками функций. Данные делятся на файлы «test» и «train», в которых данные представлены в следующем формате:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

И это только очень маленький пример того, что содержится в файле.

Я действительно не знаю, что представляют эти данные и как их можно интерпретировать. Также какие инструменты мне понадобятся для анализа, классификации и кластеризации данных? Можно ли как-нибудь поместить эти данные в Excel с включенными метками и, например, использовать R или python для извлечения примеров данных и работы над этим?

Любые советы / подсказки будут высоко оценены.

bigdata machine-learning databases clustering data-mining Jakubee
источник

Ответы:

Определения набора данных находятся на странице здесь:

Информация об атрибутах внизу

или вы можете увидеть внутри папки ZIP файл с именем activity_labels, в котором есть заголовки столбцов, убедитесь, что вы внимательно прочитали README, в нем есть полезная информация. Вы можете легко внести .csvфайл в R, используя read.csvкоманду.

Например, если вы назвали свой файл, samsungdataвы можете открыть R и выполнить эту команду:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Или, если вы уже находитесь внутри рабочего каталога в R, вы можете просто запустить следующее

data <- read.csv("samsungdata.csv", header = TRUE)

Где имя dataможет быть изменено на то, что вы хотите назвать свой набор данных.

MCP_infiltrator
источник

Понимаю. Я изучил файл README, однако до сих пор не могу понять, каким образом можно самостоятельно прочитать данные. Например, файл train / X_train.txt' представляет обучающий набор (примеры данных, которые я показал в посте, взяты из этого файла).

Jakubee

Мне кажется, что набор данных довольно широкий, в строке содержится 561 переменная, которые перечислены внутри файла features.txt. Я считаю, что это то, что вы имеете в виду.

MCP_infiltrator

Таким образом, каждая переменная из файла «features» соответствует каждому столбцу, например, в файле «x-test.txt», или я не прав?

Якуби,

Вот как я это воспринимаю. Из того, что я мог бы извлечь из README, это то, что содержит файл.

MCP_infiltrator

@Jakubee Да. В features.txtфайле 561 имя строки / переменной и 561 столбец в X_train.txtфайле, по одному для каждой переменной.

Marco13

Похоже, это (или очень похожий набор данных) используется для курсов Coursera. Очистка этого набора данных является задачей получения и очистки данных , но она также используется для изучения конкретного случая для анализа поисковых данных . Видео из этого примера доступно в видео для 4-й недели курса EDA. Это может помочь вам начать с этими данными.

Дамиан Мельничук
источник