Используют ли ученые данных Excel?

37

Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми инструментами, такими как SQL, R, Python, Hadoop, LaTeX и т. Д.

Мы проводим собеседование на должность специалиста по данным, и один из кандидатов объявляет себя «старшим специалистом по данным» (очень модный термин в наши дни) с опытом работы более 15 лет. Когда его спросили, какой набор инструментов он предпочитает, он ответил, что это Excel.

Я воспринял это как доказательство того, что он не был таким опытным, как его резюме, но не был уверен. В конце концов, то, что это не мой любимый инструмент, не означает, что это не чужие люди. Используют ли опытные специалисты по данным Excel? Можете ли вы предположить отсутствие опыта у кого-то, кто в основном использует Excel?

JHowIX
источник
Большинство объявлений о работе в области наук о данных требуют определенных навыков, таких как R, Hadoop, что угодно. Вы забыли упомянуть об этом в своей рекламе? Если ваш новый Data Scientist не будет работать в пузыре, ему или ей придется работать с командой, и, вероятно, ему придется работать со стандартным программным обеспечением команды ...
Spacedman
1
хорошо, если они не будут использовать \LaTeX{}то я бы не нанял их. шучу ...
aeroNotAuto
1
@Spacedman: я предоставил историю для анекдотического контекста, но действительно больше интересуюсь взглядами людей на excel, чем нанимаю советы. Наша команда может использовать любые инструменты, которые нам нравятся.
JHowIX
1
Да, смотрите здесь . Для шутки ослаблен, смотрите здесь тоже .
Дирк Эддельбюттель
1
Независимо от указанных лет, я ожидаю, что Pro / Con список, по крайней мере, из трех инструментов от ученого данных. Они должны продемонстрировать способность исследовать, взвешивать варианты и сообщать о решениях. Даже, или особенно, в интервью, я бы ожидал увидеть реальную вовлеченность и способность выйти за рамки потенциально великого, но в настоящее время недостающего вопроса об интервью.
Дейв

Ответы:

28

Большинство нетехнических людей часто используют Excel в качестве замены базы данных. Я думаю, что это неправильно, но терпимо. Однако тот, кто предположительно имеет опыт анализа данных, просто не может использовать Excel в качестве своего основного инструмента (исключая очевидную задачу просмотра данных в первый раз). Это связано с тем, что Excel никогда не предназначался для такого анализа, и, как следствие этого, в Excel невероятно легко совершать ошибки (это не означает, что при использовании других инструментов не просто невероятно легко совершать ошибки другого типа, но Excel усугубляет ситуацию еще больше.)

Подводя итог, что Excel не имеет и является обязательным для любого анализа:

  1. Воспроизводимость. Анализ данных должен быть воспроизводимым.
  2. Контроль версий. Хорошо для сотрудничества, а также для воспроизводимости. Вместо использования xls, используйте csv (все еще очень сложный и имеет множество крайних случаев, но парсеры csv довольно хороши в наши дни.)
  3. Тестирование. Если у вас нет тестов, ваш код не работает. Если ваш код не работает, ваш анализ хуже, чем бесполезен.
  4. Ремонтопригодность.
  5. Точность. Точность вычислений, точный разбор дат и др. В Excel действительно отсутствуют.

Больше ресурсов:

Европейская группа по интересам в области электронных таблиц - ужасные истории

Вы не должны использовать электронную таблицу для важной работы (я имею в виду это)

Microsoft Excel может быть самым опасным программным обеспечением на планете

Уничтожьте свои данные с помощью Excel с помощью этого странного трюка!

Таблицы Excel трудно понять правильно

Роберт Смит
источник
Для просмотра и быстрого анализа данных существуют ли широко признанные профессионалами инструменты как сопоставимые, но лучше, чем Excel? Я новичок в области данных, и я в основном использую (Postgre) SQL, но с чем-то вроде Excel можно работать быстрее, если вы просто пробуете что-то новое.
Судо
1
Кроме того, я должен жаловаться, что CSV не является стандартом. Вы действительно должны убедиться, что все, что открывается, согласуется с тем, что произвело это. OpenOffice делает это правильно и позволяет вам выбирать многие параметры CSV при загрузке, а не предполагать что-либо о формате.
Судо
@sudo Инструменты зависят от выбранного вами языка программирования, который в основном является личным предпочтением. Просто приведу несколько примеров. Исторически R был хорошим выбором, популярность Python для анализа данных в последние годы возросла, Джулия - очень многообещающий новичок в этой области. Большинство языков программирования предоставляют зрелые библиотеки, которые предоставляют вам структуры (например, фреймы данных), особенно подходящие для анализа данных, и все они лучше, чем Excel. CSV был стандартизирован, но есть детали, которые реализованы по-другому, но это не должно быть большой проблемой в вашей повседневной работе.
Роберт Смит
Я использую Python для легкой обработки, но на самом деле он не служит целям Excel. Например, в Excel вы можете использовать такие инструменты, как автофильтр и интерактивные диаграммы. Обычно я вывожу свои данные в CSV, чтобы мои старшие сотрудники смотрели в Excel или что-то в этом роде.
Судо
@sudo Тогда тебе нужны Панды. Pandas предоставляет множество методов для манипулирования вашими данными. Это включает в себя подмножество на основе индекса, столбцов или условий, которое является более гибким и мощным, чем автофильтр. Затем вы можете построить результат ( df.plot()) и экспортировать вывод в csv ( df.to_csv('output.csv')). Имейте в виду, что анализ данных обычно требует намного больше, чем фильтрация и построение графиков. Поэтому акцент должен быть сделан на правильности, поэтому вам необходимо отделить представление от анализа. Выполните свой анализ в Python (или другом языке), поделитесь своими результатами в CSV, если это то, что вы хотите.
Роберт Смит
15

Используют ли опытные специалисты по данным Excel?

Я видел опытных исследователей данных, которые используют Excel - либо из-за своих предпочтений, либо из-за специфики бизнеса и ИТ-среды своего рабочего места (например, многие финансовые учреждения используют Excel в качестве основного инструмента, по крайней мере, для моделирования). Тем не менее, я думаю, что большинство опытных исследователей данных признают необходимость использования инструментов, которые являются оптимальными для конкретных задач, и придерживаются этого подхода.

Можете ли вы предположить отсутствие опыта у кого-то, кто в основном использует Excel?

Нет, ты не можешь. Это следствие из моих вышеупомянутых мыслей. Наука о данных не подразумевает автоматически большие данные - существует множество работ по обработке данных, с которыми Excel может справиться достаточно хорошо. Сказав, что, если специалист по данным (даже опытный) не обладает знаниями (по крайней мере, базовыми) о современных инструментах для обработки данных, в том числе ориентированных на большие данные, это вызывает некоторое беспокойство. Это связано с тем, что эксперименты глубоко укоренились в природе науки о данных, потому что исследовательский анализ данных является существенной и даже важной частью. Следовательно, человек, у которого нет желания изучать другие инструменты в своей области, может занять более низкое место среди кандидатов в общей пригодности для позиции в области науки данных (конечно, это довольно размыто, поскольку некоторые люди очень быстро учатся новый материал, плюс,

Поэтому, в заключение, я думаю, что лучший ответ опытного исследователя данных на вопрос, касающийся их предпочтительного инструмента, заключается в следующем: мой предпочтительный инструмент - оптимальный, то есть тот, который наилучшим образом соответствует поставленной задаче.

Александр Блех
источник
5
Я бы никогда не стал обвинять кого-то в том, что он не знает Hadoop, но даже в небольших ситуациях с данными мне кажется, что R лучше. Есть просто множество вещей, которые вы можете сделать с R, но вы не можете сделать с Excel. Меня беспокоит, что этот человек не «обнаружил», что за 15 с лишним лет
JHowIX,
@JHowIX: Вы знакомы с термином «достаточно хорошо»? Я также большой поклонник R и предпочел бы его многим инструментам, включая Excel, в любой день. Однако тот факт, что R может делать больше, не означает, что Excel (или любой другой инструмент, подходящий для задачи) уступает в конкретном рабочем контексте. Таким образом, хотя ваше беспокойство действительно (я говорю об этом, используя слово «тревожный»), возможно, у человека не было возможности / необходимости сделать это. Помните, что вы говорите о времени, когда R существовал, но был популярен в основном в научных кругах, и наука о данных (называемая анализом данных или тому подобное) не была такой жаркой, как сегодня.
Александр Блех
13

Я думаю, что большинство людей отвечают, не имея хорошего знания об Excel. В Excel (с 2010 года) имеется столбчатая [многотабличная] база данных в памяти, которая называется power pivot (которая позволяет вводить данные из csv / database и т. Д.), Что позволяет хранить миллионы строк (ее не нужно загружать в электронную таблицу). , Он также имеет инструмент ETL, который называется power query, позволяющий вам читать данные из различных источников (включая hadoop). И у этого есть инструмент визуализации (представление власти и карта власти). Многие специалисты Data Science проводят агрегацию и топ-анализ, при котором мощность превосходит все. Добавьте к этому интерактивный характер этих инструментов - любой пользователь может легко перетащить измерение, в котором можно разбить результаты, и я надеюсь, что вы увидите преимущества. Так что да, вы не можете заниматься машинным обучением,

seanv507
источник
Интересный. Я привык к медленным и глючным вещам, это Excel 1998-2008. Должен попробовать новые.
Судо
Я хотел бы одобрить ответ seanv507 миллион раз. Большинство ответов здесь показывают, что многие люди не знают, насколько мощными являются более поздние версии Excel. И обратите внимание, что при использовании новых инструментов анализа данных (например, Power Power, Power Pivot, DAX) вы больше не ограничены 1, 048, 576 строк данных и множеством других ограничений без этих инструментов
maze55555
Люди без бизнеса не используют Excel. Период. А если учесть, что выпускники бизнеса обычно не изучают науку о данных, вы можете понять это невежество.
NoName
5

В своей книге «Data Smart» Джон Форман решает общие проблемы науки о данных (кластеризация, наивный байесовский анализ, методы ансамбля и т. Д.) С помощью Excel. В самом деле, всегда хорошо иметь некоторые знания Python или R, но я думаю, что Excel все еще может выполнить большую часть работы!

Анил Нарассигуин
источник
2
На самом деле, я сам был очень удивлен, когда прочитал книгу, которую вы так много можете сделать с помощью Excel. И что он имеет встроенные эволюционные и другие нелинейные решатели! Хорошим преимуществом Excel является то, что ваша работа, особенно если вы работаете с воспроизводимым кодом, доступна большему количеству людей, чем код R или Python.
Виктор Ма
5

Я удивлен, как много людей привязаны к крутости профессии, а не к фактической работе, которую предстоит сделать. Excel - отличный инструмент, с бесплатным Powerpivot, Powerquery, он может сделать очень многое. (они не доступны в OS X). И если вы знаете VBA, вы можете сделать что-то хорошее. И затем, если вы добавите к вершине эти знания Python, вы можете объединить самые первые шаги извлечения данных и манипуляции с Python, а затем использовать Excel, особенно если вы визуальный человек. С помощью Excel вы можете действительно проверить агрегированные данные, прежде чем вводить их в какие-либо дальнейшие процессы или визуализировать. Это должен иметь инструмент.

Донатас Свилпа
источник
4

Excel допускает только очень маленькие данные и не имеет ничего достаточно полезного и гибкого для машинного обучения или даже для построения графиков. Все, что я хотел бы сделать в Excel, - это посмотреть на подмножество данных, чтобы на первый взгляд взглянуть на значения, чтобы убедиться, что я не пропускаю ничего видимого на глаз.

Так что, если его любимым инструментом является Excel, это может указывать на то, что он редко имеет дело с машинным обучением, статистикой, большими объемами данных или любыми сложными графиками. Кто-то вроде этого я бы не назвал Data Scientist. Конечно, названия не имеют значения, и это во многом зависит от ваших требований.

В любом случае, не делайте суждения на основании опыта или резюме. Я видел резюме и знал людей, стоящих за ним.

Не думай Проверь его! Вы должны быть достаточно хороши, чтобы настроить тест. Было показано, что одни только интервью почти бесполезны для определения навыков (они только показывают личность). Создайте очень простой контролируемый тест обучения и позвольте ему использовать любой инструмент, который он хочет.

И если вы хотите сначала проверить людей на собеседовании, то спросите его об основных, но важных взглядах на статистику или машинное обучение. То, что знает каждый из ваших нынешних сотрудников.

Gerenuk
источник
2

Позвольте мне сначала уточнить, что я начинаю свое путешествие в науку о данных с точки зрения программиста и разработчика базы данных. Я не 10-летний эксперт по науке о данных и не статистический бог. Тем не менее, я работаю исследователем данных и большими наборами данных для компании, которая работает с довольно крупными клиентами по всему миру.

Исходя из моего опыта, специалист по данным использует все инструменты, необходимые для выполнения работы. Excel, R, SAS, Python и другие - все это инструменты в наборе инструментов для хорошего исследователя данных. Лучшие могут использовать самые разнообразные инструменты для анализа и анализа данных.

Поэтому, если вы обнаружите, что сравниваете R с Python, вы, вероятно, делаете все неправильно в мире наук о данных. Хороший ученый использует оба, когда имеет смысл использовать одно поверх другого. Это также относится к Excel.

Я думаю, что довольно сложно найти кого-то, кто будет иметь опыт работы с таким количеством различных инструментов и языков, в то же время преуспевая во всем. Я также думаю, что будет сложно найти специалиста по данным, который мог бы не только программировать сложные алгоритмы, но и знать, как использовать их с точки зрения статистики.

Большинство исследователей данных, с которыми я работал, имеют около 2 разновидностей. Те, которые могут программировать, и те, которые не могут. Я редко работаю с специалистом по данным, который может извлекать данные в Python, манипулировать ими с помощью чего-то вроде Pandas, подбирать модель к данным в R и затем представлять ее руководству в конце недели.

Я имею в виду, я знаю, что они существуют. Я читал много блогов по науке о данных от парней, разрабатывающих веб-скребки, вставляющих их в Hadoop, вытаскивающих их обратно в Python, программирующих сложные вещи и запускающих его через R для загрузки. Они существуют. Они там. Я просто не сталкивался со слишком многими, кто может сделать все это. Может быть, это только моя область, хотя?

Так значит ли это, что мы специализируемся только на одном плохом? Нет. Многие мои друзья специализируются только на одном основном языке и убивают его. Я знаю много данных, ребята, которые знают только R и убивают его. Я также знаю множество людей, которые просто используют Excel для анализа данных, потому что это единственное, что большинство ученых, не связанных с данными, могут открывать и использовать (особенно в компаниях B2B). Вопрос, на который вам действительно нужно ответить, заключается в том, является ли эта вещь единственной, которая вам нужна для этой должности? И самое главное, могут ли они учиться новому?

PS

Наука о данных не ограничивается только «БОЛЬШИМИ ДАННЫМИ» или NoSQL.

Глен Свон
источник
Привет Глен, спасибо за ваши комментарии. Взгляните на следующую ссылку. Это от Свами Чандрасекарана, который возглавлял команду Уотсона в IBM, поэтому, на мой взгляд, довольно опытный специалист по данным. У него есть программирование как третье, что должен знать ученый, стоящий за «Основами» и Статистикой. Согласно его плану, когда вы научитесь программировать, вы станете специалистом по данным на 15%. Исходя из этого, я мог бы немного не согласиться с утверждением о том, что истинные ученые, работающие с данными, имеют «не программируемый» вкус. nirvacana.com/oughtts/becoming-a-data-scientist
JHowIX,
Ну, я только говорю, что на основе опыта. Большинство курсов по статистике и науке о данных даже не охватывают программирование за пределами того, что вам нужно для популярных статистических программ. Из-за этого большинство парней, с которыми я сталкиваюсь в мире статистики, плохо разбираются в программировании. Это похоже на запоздалую мысль, когда они входят в реальный мир и понимают, что это помогает.
Глен Свон
1

Excel может быть отличным инструментом для исследовательского анализа данных, он действительно зависит от ваших потребностей и, конечно, имеет свои ограничения, как и любой инструмент, но Excel определенно заслуживает места в зале славы науки о данных.

Стоит помнить, что на практике большинство пользователей все равно будут изучать сильно сокращенный набор данных (созданный из запроса SQL).

Excel является мощным средством для исследования данных, когда вы используете объект «таблица» в сочетании с сводными таблицами, визуализация занимает всего 1-2 клика, и многие диаграммы Excel в PowerPoint выглядят великолепно, если только вы не хотите создавать что-то очень индивидуальное, например, в научный вычислительный контекст. Интерактивный характер означает, что вы можете быстро исследовать.

Преимущества объекта «таблица» состоят в том, что при дальнейшем преобразовании данных в Excel для изучения новых распределений все сводные таблицы запоминают переменную.

Если Excel слаб, это то, что список формул, возможно, является ограничивающим, например, оператор SQL или оператор Python гораздо более гибок, чем бесконечная цепочка функций if.

Это действительно зависит от ваших потребностей, но Excel определенно заслуживает места в зале славы науки о данных.

Интересный анекдот: команда, работающая над алгоритмом новостной ленты Facebook, регулярно демонстрирует игру с Excel и множеством электронных таблиц.

Уильям Махмуд
источник
0

Я преподаю курс Business Analytics, который включает в себя SQL и Excel. Я преподаю в бизнес-школе, поэтому мои ученики не обладают техническими способностями, поэтому я не использовал что-то вроде R, Pandas или Weka. При этом Excel является достаточно мощным инструментом для анализа данных. Он получает большую часть этих возможностей благодаря своей способности выступать в качестве внешнего интерфейса для служб аналитики SQL Server (компонент в SQL Server для анализа данных) с использованием надстройки интеллектуального анализа данных.

SSAS позволяет создавать деревья решений, выполнять линейные и логистические регрессии и даже создавать байесовские или нейронные сети. Я обнаружил, что использование Excel в качестве внешнего интерфейса представляет собой менее опасный подход к проведению такого рода анализов, поскольку все они использовали Excel раньше. Использовать SSAS без Excel можно через специализированную версию Visual Studio, и это не самый удобный инструмент. Когда вы объедините его с несколькими другими инструментами Excel, такими как Power Query и Power Pivot, вы сможете провести довольно сложный анализ данных.

Полное раскрытие, я, вероятно, не собираюсь использовать его снова, когда буду преподавать новую версию курса в следующем году (мы разбиваем его на два курса, чтобы один мог сосредоточиться на анализе данных). Но это только потому, что университет смог получить достаточно лицензий на Alteryx, который еще проще и мощнее в использовании, но стоит 4-85 тыс. Долл. США на пользователя в год, если вы не можете получить его бесплатно. Скажите, что вы хотите об Excel, но это лучше, чем цена.

Джеймс Эндикотт
источник
0

Excel может быть отличным инструментом. Конечно, в зависимости от того, что вы делаете, это может не отвечать всем требованиям, но если это произойдет, было бы почти глупо отклонить его. Хотя настройка конвейера занимает некоторое время, в Excel вы можете в полной мере работать: встроенный пользовательский интерфейс, простота расширения через VBA даже с Python (например, https://www.xlwings.org ). Это может быть не идеально, когда дело доходит до контроля версий, но есть способы заставить его работать с Git (например, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).

Бьерн Стил
источник
-2

Этот человек работает с «большими данными» и в основном использует Excel? Шутки в сторону?!?! Excel обрабатывает только 1 048 576 строк данных в одной электронной таблице. Для наборов данных сверх этого необходим плагин. Кроме того, сводные таблицы в Excel имеют серьезные ограничения на анализ, который может быть выполнен с их использованием.

Какие типы задач анализа данных необходимо выполнить в работе, для которой вы нанимаете сотрудников?

Я предлагаю вам провести собеседования, которые включают тесты такого рода задач, которые необходимо выполнить в рассматриваемой работе. Не нарушая конфиденциальность, конфиденциальность или защиту данных, задача программирования или анализа данных, поставленная в ходе интервью, должна включать (псевдонимное) подмножество набора данных, относящегося к должности, для которой проводится опрос. В противном случае вы можете в конечном итоге набрать кого-то, кто четко сформулирует свое мнение на собеседовании, но на самом деле не компетентен в выполнении реальной работы.

dac2002
источник
Никто не сказал «большие данные». Они сказали «ученый данных». Не все данные являются «большими данными». Я работал с опытными исследователями данных, которые использовали все R, Python, SQL и Excel в одном проекте. Не весь анализ данных является программным или скриптовым. Как сказано в другом месте, расплывчатая спецификация работы => различные типы данных ученых.
smci