Какие начальные шаги я должен использовать, чтобы понять большие наборы данных, и какие инструменты я должен использовать?

10

Предостережение: я начинающий, когда дело доходит до машинного обучения, но хочу учиться.

У меня большой набор данных, и я пытаюсь найти в нем закономерность. Может быть / не быть корреляции между данными, либо с известными переменными, либо с переменными, которые содержатся в данных, но которые я еще не осознал, на самом деле являются переменными / релевантными

Я предполагаю, что это будет знакомая проблема в мире анализа данных, поэтому у меня есть несколько вопросов:

  1. «Серебряная пуля» заключалась бы в том, чтобы выбросить все эти данные в программу анализа статистики / данных и обработать данные в поисках известных / неизвестных закономерностей, пытающихся найти отношения. Подходит ли SPSS или есть другие приложения, которые могут быть лучше.

  2. Должен ли я выучить такой язык, как R, и выяснить, как обрабатывать данные вручную. Не приведет ли это к нахождению отношений, поскольку мне придется вручную указать, что и как анализировать данные?

  3. Как профессиональный майнер данных подойдет к этой проблеме и какие шаги он предпримет?

user3791372
источник

Ответы:

11

Я постараюсь ответить на ваши вопросы, но прежде чем я хотел бы отметить, что использование термина «большой набор данных» вводит в заблуждение, поскольку «большой» является относительным понятием. Вы должны предоставить более подробную информацию. Если вы имеете дело с данными ставок , то этот факт, скорее всего, повлияет на выбор предпочтительных инструментов , подходов и алгоритмов для анализа ваших данных . Я надеюсь, что следующие мои мысли об анализе данных касаются ваших подвопросов. Обратите внимание, что нумерация моих баллов не соответствует нумерации ваших подвопросов. Тем не менее, я считаю, что он лучше отражает общий процесс анализа данных , по крайней мере, насколько я понимаю.

1) Во-первых, я думаю, что вам нужно иметь в виду хотя бы какую-то концептуальную модель (или, лучше, на бумаге). Эта модель должна направлять вас в анализе поисковых данных (EDA) . Наличие зависимой переменной (DV) в модели означает, что на этапе вашего машинного обучения (ML) на более позднем этапе анализа вы будете иметь дело с так называемой контролируемой ML, в отличие от неконтролируемой ML в отсутствие идентифицированного DV.

2) Во-вторых, EDA является важной частью. ИМХО, EDA должно включать в себя несколько итераций для создания описательной статистики и визуализации данных , поскольку вы улучшаете свое понимание данных. Не только этот этап даст вам ценную информацию о ваших наборах данных, но он обеспечит ваш следующий важный этап - очистка и преобразование данных . Простое добавление необработанных данных в статистический программный пакет не даст много - для любого достоверного статистического анализа данные должны быть чистыми, правильными и согласованными . Часто это самая трудоемкая, но абсолютно необходимая часть. Для более подробной информации по этой теме, прочитайте эти хорошие статьи:http://vita.had.co.nz/papers/tidy-data.pdf (Хедли Уикхем) и http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (автор: Эдвин де Йонге и Марк ван дер Лоо).

3) Теперь, когда, как мы надеемся, вы завершили работу с EDA, а также очисткой и преобразованием данных, вы готовы начать еще несколько этапов, связанных со статистикой. Одним из таких этапов является исследовательский факторный анализ (EFA) , который позволит вам извлечь основную структуру ваших данных. Для наборов данных с большим количеством переменных положительным побочным эффектом EFA является уменьшение размерности . И хотя в этом смысле ОДВ аналогичен анализу основных компонентов (PCA)и другие подходы к уменьшению размерности, я думаю, что ОДВ является более важным, поскольку оно позволяет уточнить вашу концептуальную модель явлений, которые «описывают» ваши данные, таким образом, имея смысл ваших наборов данных. Конечно, в дополнение к EFA, вы можете / должны выполнять регрессионный анализ, а также применять методы машинного обучения , основываясь на ваших выводах на предыдущих этапах.

Наконец, заметка о программных инструментах . На мой взгляд, текущее состояние статистических программных пакетов находится на таком уровне, что практически любые крупные программные пакеты имеют сопоставимые предложения по функциональности. Если вы учитесь или работаете в организации, у которой есть определенные политики и предпочтения в отношении программных инструментов, то вы ограничены ими. Однако, если это не так, я бы искренне рекомендовал статистическое программное обеспечение с открытым исходным кодом, основываясь на вашем удобстве с его конкретным языком программирования , кривой обучения и вашей карьерной перспективой . Моя текущая платформа выбора - R Project, которая предлагает зрелое, мощное, гибкое, обширное и открытое статистическое программное обеспечение, а также удивительную экосистему пакетов, экспертов и энтузиастов. Другие хорошие варианты включают Python , Julia и специальное программное обеспечение с открытым исходным кодом для обработки больших данных , такое как Hadoop , Spark , базы данных NoSQL , WEKA . Дополнительные примеры программного обеспечения с открытым исходным кодом для интеллектуального анализа данных , которое включает в себя общее и специальное статистическое и ML-программное обеспечение, см. В этом разделе страницы Википедии: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

ОБНОВЛЕНИЕ: забыл упомянуть Rattle ( http://rattle.togaware.com ), который также является очень популярным R-ориентированным программным обеспечением с открытым исходным кодом для графического анализа данных.

Александр Блех
источник
1
Вернувшись к этому вопросу более года спустя, я, безусловно, могу повторить, что знание ваших данных является ключевым, и вам нужно иметь в виду, что такое «хорошие» данные по сравнению с «плохими» данными. Я пытался использовать магические решения, такие как нейронные сети и т. Д., Но процесс очистки данных был непростым. (Скрытые марковские модели, по-видимому, лучше всего реагировали на грязный ввод и были в состоянии предсказать результаты наилучшим образом). Было фактически просто проливать данные в течение многих недель после сбоя ML и после создания многих графиков (визуальное представление данных очень важно) чтобы я смог найти решение своих проблем!
user3791372
@ user3791372 Рад тебя слышать! Очевидно, что этот год был для вас продуктивным, поскольку вы смогли лучше понять различные аспекты науки о данных. Хотелось бы, чтобы у меня было больше возможностей узнать больше, но, с другой стороны, я не могу жаловаться, потому что тоже многому научился (не всегда связан с наукой о данных, но, возможно, это даже лучше). Так держать!
Александр Блех
3
  1. SPSS - это отличный инструмент, но вы можете добиться многого с помощью ресурсов, которые у вас уже есть на вашем компьютере, например, Excel, или которые бесплатны, например, R-проект. Несмотря на то, что эти инструменты являются мощными и могут помочь вам определить шаблоны, вам нужно иметь твердое представление о ваших данных перед выполнением анализа (я бы рекомендовал использовать описательную статистику для ваших данных и исследовать данные с помощью графиков, чтобы убедиться, что все выглядит нормально). Другими словами, инструмент, который вы используете, не будет предлагать «серебряную пулю», потому что выходные данные будут такими же ценными, как и входные (вы знаете поговорку ... «мусор в мусоре»). Многое из того, что я говорю, уже было сказано в ответе Александра - точнее.

  2. R может быть сложной задачей для тех из нас, кто не разбирается в кодировании, но свободных ресурсов, связанных с R и его пакетами, предостаточно. Если вы будете практиковаться в изучении программы, вы быстро наберете обороты. Опять же, вам нужно быть знакомым с вашими данными и анализом, который вы хотите выполнить в любом случае, и этот факт остается неизменным независимо от используемых вами статистических инструментов.

  3. Я бы начал с того, что очень хорошо ознакомился со своими данными (для начала следуйте инструкциям, изложенным в ответе Александра). Вы можете подумать о приобретении книги Джона Формана под названием Data Smart. Это практическая книга, поскольку Джон предоставляет наборы данных, а вы вместе с его примерами (используя Excel) изучаете различные способы навигации и исследования данных. Для начинающих это отличный ресурс.

Радость
источник
2

Александр дал очень подробное объяснение, но вкратце это следующие шаги:

Извлечение данных

Очистка данных

Извлечение функций

Построение моделей

Вывод результатов

Публикация результатов

Повторите шаги 3,4,5 в цикле, пока не получите правильную точность.

Баран
источник
0

R имеет графический интерфейс pnc, такой как SPSS. Они печатают код R, чтобы вы могли учиться и объединять свои усилия. Я бы порекомендовал BlueSky для его диалогов для всего и греметь. Хотя это программное обеспечение отлично подходит для EDA, статистики и визуализации, машинное обучение не очень хорошо.

ran8
источник