Я постараюсь ответить на ваши вопросы, но прежде чем я хотел бы отметить, что использование термина «большой набор данных» вводит в заблуждение, поскольку «большой» является относительным понятием. Вы должны предоставить более подробную информацию. Если вы имеете дело с данными ставок , то этот факт, скорее всего, повлияет на выбор предпочтительных инструментов , подходов и алгоритмов для анализа ваших данных . Я надеюсь, что следующие мои мысли об анализе данных касаются ваших подвопросов. Обратите внимание, что нумерация моих баллов не соответствует нумерации ваших подвопросов. Тем не менее, я считаю, что он лучше отражает общий процесс анализа данных , по крайней мере, насколько я понимаю.
1) Во-первых, я думаю, что вам нужно иметь в виду хотя бы какую-то концептуальную модель (или, лучше, на бумаге). Эта модель должна направлять вас в анализе поисковых данных (EDA) . Наличие зависимой переменной (DV) в модели означает, что на этапе вашего машинного обучения (ML) на более позднем этапе анализа вы будете иметь дело с так называемой контролируемой ML, в отличие от неконтролируемой ML в отсутствие идентифицированного DV.
2) Во-вторых, EDA является важной частью. ИМХО, EDA должно включать в себя несколько итераций для создания описательной статистики и визуализации данных , поскольку вы улучшаете свое понимание данных. Не только этот этап даст вам ценную информацию о ваших наборах данных, но он обеспечит ваш следующий важный этап - очистка и преобразование данных . Простое добавление необработанных данных в статистический программный пакет не даст много - для любого достоверного статистического анализа данные должны быть чистыми, правильными и согласованными . Часто это самая трудоемкая, но абсолютно необходимая часть. Для более подробной информации по этой теме, прочитайте эти хорошие статьи:http://vita.had.co.nz/papers/tidy-data.pdf (Хедли Уикхем) и http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (автор: Эдвин де Йонге и Марк ван дер Лоо).
3) Теперь, когда, как мы надеемся, вы завершили работу с EDA, а также очисткой и преобразованием данных, вы готовы начать еще несколько этапов, связанных со статистикой. Одним из таких этапов является исследовательский факторный анализ (EFA) , который позволит вам извлечь основную структуру ваших данных. Для наборов данных с большим количеством переменных положительным побочным эффектом EFA является уменьшение размерности . И хотя в этом смысле ОДВ аналогичен анализу основных компонентов (PCA)и другие подходы к уменьшению размерности, я думаю, что ОДВ является более важным, поскольку оно позволяет уточнить вашу концептуальную модель явлений, которые «описывают» ваши данные, таким образом, имея смысл ваших наборов данных. Конечно, в дополнение к EFA, вы можете / должны выполнять регрессионный анализ, а также применять методы машинного обучения , основываясь на ваших выводах на предыдущих этапах.
Наконец, заметка о программных инструментах . На мой взгляд, текущее состояние статистических программных пакетов находится на таком уровне, что практически любые крупные программные пакеты имеют сопоставимые предложения по функциональности. Если вы учитесь или работаете в организации, у которой есть определенные политики и предпочтения в отношении программных инструментов, то вы ограничены ими. Однако, если это не так, я бы искренне рекомендовал статистическое программное обеспечение с открытым исходным кодом, основываясь на вашем удобстве с его конкретным языком программирования , кривой обучения и вашей карьерной перспективой . Моя текущая платформа выбора - R Project, которая предлагает зрелое, мощное, гибкое, обширное и открытое статистическое программное обеспечение, а также удивительную экосистему пакетов, экспертов и энтузиастов. Другие хорошие варианты включают Python , Julia и специальное программное обеспечение с открытым исходным кодом для обработки больших данных , такое как Hadoop , Spark , базы данных NoSQL , WEKA . Дополнительные примеры программного обеспечения с открытым исходным кодом для интеллектуального анализа данных , которое включает в себя общее и специальное статистическое и ML-программное обеспечение, см. В этом разделе страницы Википедии: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ОБНОВЛЕНИЕ: забыл упомянуть Rattle ( http://rattle.togaware.com ), который также является очень популярным R-ориентированным программным обеспечением с открытым исходным кодом для графического анализа данных.
SPSS - это отличный инструмент, но вы можете добиться многого с помощью ресурсов, которые у вас уже есть на вашем компьютере, например, Excel, или которые бесплатны, например, R-проект. Несмотря на то, что эти инструменты являются мощными и могут помочь вам определить шаблоны, вам нужно иметь твердое представление о ваших данных перед выполнением анализа (я бы рекомендовал использовать описательную статистику для ваших данных и исследовать данные с помощью графиков, чтобы убедиться, что все выглядит нормально). Другими словами, инструмент, который вы используете, не будет предлагать «серебряную пулю», потому что выходные данные будут такими же ценными, как и входные (вы знаете поговорку ... «мусор в мусоре»). Многое из того, что я говорю, уже было сказано в ответе Александра - точнее.
R может быть сложной задачей для тех из нас, кто не разбирается в кодировании, но свободных ресурсов, связанных с R и его пакетами, предостаточно. Если вы будете практиковаться в изучении программы, вы быстро наберете обороты. Опять же, вам нужно быть знакомым с вашими данными и анализом, который вы хотите выполнить в любом случае, и этот факт остается неизменным независимо от используемых вами статистических инструментов.
Я бы начал с того, что очень хорошо ознакомился со своими данными (для начала следуйте инструкциям, изложенным в ответе Александра). Вы можете подумать о приобретении книги Джона Формана под названием Data Smart. Это практическая книга, поскольку Джон предоставляет наборы данных, а вы вместе с его примерами (используя Excel) изучаете различные способы навигации и исследования данных. Для начинающих это отличный ресурс.
источник
Александр дал очень подробное объяснение, но вкратце это следующие шаги:
Извлечение данных
Очистка данных
Извлечение функций
Построение моделей
Вывод результатов
Публикация результатов
Повторите шаги 3,4,5 в цикле, пока не получите правильную точность.
источник
R имеет графический интерфейс pnc, такой как SPSS. Они печатают код R, чтобы вы могли учиться и объединять свои усилия. Я бы порекомендовал BlueSky для его диалогов для всего и греметь. Хотя это программное обеспечение отлично подходит для EDA, статистики и визуализации, машинное обучение не очень хорошо.
источник