Я готовлюсь к вводному курсу по науке о данных с использованием языка программирования R. Моя аудитория - студенты, специализирующиеся на бизнес-дисциплинах. У типичного бизнес-старшекурсника нет опыта программирования, но он прошел несколько классов, в которых используется Excel.
Лично мне очень нравится R (или другие языки программирования), потому что я специализировался в области компьютерных наук. Тем не менее, у меня есть ощущение, что многие из моих учеников будут опасаться изучать язык программирования, потому что им это может показаться трудным.
Я немного знаком с Excel, и я считаю, что хотя Excel может быть полезен для простой науки о данных, студентам необходимо выучить серьезный язык программирования для науки о данных (например, R или Python). Как я могу убедить себя и студентов, что Excel недостаточно для серьезного бизнес-студента, изучающего науку о данных, и что им необходимо научиться программированию?
Отредактировано в ответ на комментарий
Вот некоторые из тем, которые я буду освещать:
- Обработка данных и очистка данных
- Как манипулировать таблицей данных, например, выбрать подмножество строк (фильтр), добавить новые переменные (мутировать), отсортировать строки по столбцам
- SQL присоединяется с использованием пакета dplyr
- Как рисовать графики (точечные, гистограммы и т. Д.) С помощью пакета ggplot2
- Как оценивать и интерпретировать статистические модели, такие как линейная регрессия, логистическая регрессия, деревья классификации и k-ближайшие соседи
Поскольку я не очень хорошо знаю Excel, я не знаю, можно ли легко выполнить все эти задачи в Excel.
источник
Ответы:
Прежде всего, проверьте этот пост . У этого есть много причин, почему Excel уступает другим решениям, касающимся задач науки о данных. Excel также не может обрабатывать большие наборы данных (сотни тысяч записей, не говоря уже о больших данных ), изображения и звуковые данные.
Excel хорош для простых задач, связанных с электронными таблицами; он делает больший упор на представление и простоту использования , при этом имея минимальную поддержку для фактического анализа данных. Если все, что вы хотите сделать, это вычислить простые статистические показатели (среднее, среднее и т. Д.) Или построить очень простую модель (например, линейную регрессию), Excel неэффективен. Тем не менее, 99% работы, которую компания имеет дело с данными, достаточно просты, чтобы ими можно было управлять через Excel.
Однако Data Science в основном имеет дело с регрессией, классификацией и сложными моделями, с которыми Excel не может справиться! Если ваши студенты хотят взглянуть на науку о данных, вы должны научить их инструменту, который будет им полезен (R, python и т. Д.). На этих языках также есть библиотеки с множеством встроенных моделей, с которыми можно «поиграть».
Еще одна очень важная причина, по которой я бы выбрал последние варианты - это то, что они имеют открытый исходный код . Я лично считаю, что программное обеспечение с открытым исходным кодом должно быть предпочтительнее с точки зрения образования, чем проприетарные решения (именно поэтому я предлагаю Python и R над Matlab)!
источник
Я только что закончил с мастерами бизнес-аналитики и столкнулся с той же проблемой, которую вы описываете. К счастью, я технический специалист и смог научить себя R и Python, но я застрял, преподавая остальной части класса, как использовать R и Python. Занятия, которые я использовал с использованием R / Python, были затруднены из-за отсутствия технического понимания у студентов, и поэтому было потрачено слишком много времени на то, как открыть R / Python. Занятия, которые шли другим путем, были неутешительными и не очень практичными. Я хотел сделать для классного проекта то, что в Excel оказалось невозможным из-за его ограничений, но учитель не принял бы никаких других инструментов.
Это может быть не то, что вы можете сделать прямо сейчас, но я настоятельно рекомендую вам попытаться заставить департамент требовать курс программирования до начала курса. Data Science и бизнес-аналитика ИМХО должны быть междисциплинарными путями, которые требуют хороших знаний в области компьютерных наук, но пока программы не станут зрелыми и система университетов не станет лучше, это может не произойти какое-то время.
источник
Я думаю, что вам нужно учить их популярному языку Data Science, например Python или R. Excel не поможет им в реальной работе и не практичен для целей науки данных. Я бы, вероятно, сказал, что Python будет наиболее ценным для них в долгосрочной перспективе, и с помощью таких пакетов, как scikit-learn, ваши регрессии и классификации могут быть продемонстрированы в очень небольшом количестве строк кода, которые они могут легче читать и понимать. Не всегда легко понять, что делает R, просто читая его.
Еще один совет: не тратьте время на то, чтобы заставить своих студентов настроить IDE и загрузить необходимые пакеты, если вы используете python, создайте для них виртуальную среду со всеми необходимыми пакетами и установите IDE, например, pycharm (они могут получите эту и большинство других IDE по студенческой / академической лицензии), где затем сможете разрабатывать и запускать свой код с помощью пользовательского интерфейса, а не консоли, что может показаться пугающим и запутанным. Если вы идете по маршруту R, убедитесь, что для них настроена IDE, такая как RStudio, и убедитесь, что все включенные и установленные пакеты включены либо в ваш пример кода, либо полностью описаны.
источник
Создайте в R огромный data.frame (пара миллионов строк и сотни столбцов), сохраните его как .xlsx.
Покажите им разницу во времени при загрузке с помощью R и в Excel на одном компьютере. Сравните основные статистические операции между двумя в одном наборе данных, даже на графиках.
Точка № 2-4 в списке yout можно сделать и в Excel, просто НАМНОГО более болезненно, покажите им пару примеров того, насколько простая (и более быстрая) фильтрация с
dplyr
, по сравнению с базовым Excel, снова на огромном наборе данных, который выделил бы различия.Бонус, если вы можете создать набор данных, который может привести к сбою вашего компьютера в Excel.
Кроме того, я бы преобразовал «бесплатную» часть R (или Python). Например, по сравнению с SAS, если вы просто хотите попробовать одно решение (например, какой-то кластер), вы загружаете библиотеку и пробуете ее, не нужно платить больше, просто за попытку.
Для меня в этом вся прелесть, вы можете бесплатно попробовать все, что вам нужно, и часто это ключ к DS, представьте, если вам придется платить за каждую установленную вами библиотеку.
источник
Excel и Data Science - звучит очень странно для меня. Может быть, Excel и «Анализ данных».
В любом случае, я думаю, что хороший компромисс между Excel и R: KNIME ( http://www.knime.org/knime-analytics-platform ). Это бесплатно на рабочем столе и гораздо проще начать. Вы можете импортировать / экспортировать в Excel, но также использовать R, Python или Java, если узлам ~ 1.000 не хватает некоторых необходимых вам функций. Поскольку рабочие процессы создаются визуально, гораздо проще показать их тем, кто не знает языков программирования, что является довольно большим преимуществом в некоторых компаниях.
источник
Я думаю, что проблема в том, что вы пытаетесь убедить своих учеников в том, что, посещая ваш класс, они могут заниматься наукой о данных, аналогичной уровню современной науки о данных, то есть такими модными вещами, как обработка изображений, распознавание лиц. Вы слышите, как говорят в большинстве случаев: «Принимая этот класс, вы будете…». Вам нужно научить их любви к данным и смелости просматривать кучу данных, возиться с ними, чтобы, надеюсь, сделать какой-то смысл из них. В тот момент, когда они могут это сделать, вы можете называть их специалистами по данным, и вы должны гордиться тем, что у вас есть новое поколение специалистов по данным. После этого, если они очень серьезно относятся к науке о данных, они могут продолжать посещать другие интенсивные курсы по математике, статистике и информатике (опыт программирования, как вы сказали). Я был в ситуации, похожей на ваших учеников. У меня не было опыта в CS, но я хотел проникнуть в науку о данных и ИИ, взяв несколько онлайн-классов с необычными обещаниями. В итоге я потратил кучу денег, но все же испытал огромное разочарование (о, мне нужно взять этот класс, чтобы узнать этот алгоритм, о, сейчас они говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. Д.) TL ; ДР. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю. о, они сейчас говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. д.) TL; DR. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю. о, они сейчас говорят о нейронных сетях, поэтому я должен записаться на другой класс и т. д.) TL; DR. Инструменты просто составляют 1% от вашей проблемы. Если у вас есть опыт работы, у вас не должно возникнуть проблем с определением вышеуказанных задач в Excel за неделю.
источник