Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми инструментами, такими как SQL, R, Python, Hadoop, LaTeX и т. Д.
Мы проводим собеседование на должность специалиста по данным, и один из кандидатов объявляет себя «старшим специалистом по данным» (очень модный термин в наши дни) с опытом работы более 15 лет. Когда его спросили, какой набор инструментов он предпочитает, он ответил, что это Excel.
Я воспринял это как доказательство того, что он не был таким опытным, как его резюме, но не был уверен. В конце концов, то, что это не мой любимый инструмент, не означает, что это не чужие люди. Используют ли опытные специалисты по данным Excel? Можете ли вы предположить отсутствие опыта у кого-то, кто в основном использует Excel?
\LaTeX{}
то я бы не нанял их. шучу ...Ответы:
Большинство нетехнических людей часто используют Excel в качестве замены базы данных. Я думаю, что это неправильно, но терпимо. Однако тот, кто предположительно имеет опыт анализа данных, просто не может использовать Excel в качестве своего основного инструмента (исключая очевидную задачу просмотра данных в первый раз). Это связано с тем, что Excel никогда не предназначался для такого анализа, и, как следствие этого, в Excel невероятно легко совершать ошибки (это не означает, что при использовании других инструментов не просто невероятно легко совершать ошибки другого типа, но Excel усугубляет ситуацию еще больше.)
Подводя итог, что Excel не имеет и является обязательным для любого анализа:
Больше ресурсов:
Европейская группа по интересам в области электронных таблиц - ужасные истории
Вы не должны использовать электронную таблицу для важной работы (я имею в виду это)
Microsoft Excel может быть самым опасным программным обеспечением на планете
Уничтожьте свои данные с помощью Excel с помощью этого странного трюка!
Таблицы Excel трудно понять правильно
источник
df.plot()
) и экспортировать вывод в csv (df.to_csv('output.csv')
). Имейте в виду, что анализ данных обычно требует намного больше, чем фильтрация и построение графиков. Поэтому акцент должен быть сделан на правильности, поэтому вам необходимо отделить представление от анализа. Выполните свой анализ в Python (или другом языке), поделитесь своими результатами в CSV, если это то, что вы хотите.Я видел опытных исследователей данных, которые используют Excel - либо из-за своих предпочтений, либо из-за специфики бизнеса и ИТ-среды своего рабочего места (например, многие финансовые учреждения используют Excel в качестве основного инструмента, по крайней мере, для моделирования). Тем не менее, я думаю, что большинство опытных исследователей данных признают необходимость использования инструментов, которые являются оптимальными для конкретных задач, и придерживаются этого подхода.
Нет, ты не можешь. Это следствие из моих вышеупомянутых мыслей. Наука о данных не подразумевает автоматически большие данные - существует множество работ по обработке данных, с которыми Excel может справиться достаточно хорошо. Сказав, что, если специалист по данным (даже опытный) не обладает знаниями (по крайней мере, базовыми) о современных инструментах для обработки данных, в том числе ориентированных на большие данные, это вызывает некоторое беспокойство. Это связано с тем, что эксперименты глубоко укоренились в природе науки о данных, потому что исследовательский анализ данных является существенной и даже важной частью. Следовательно, человек, у которого нет желания изучать другие инструменты в своей области, может занять более низкое место среди кандидатов в общей пригодности для позиции в области науки данных (конечно, это довольно размыто, поскольку некоторые люди очень быстро учатся новый материал, плюс,
Поэтому, в заключение, я думаю, что лучший ответ опытного исследователя данных на вопрос, касающийся их предпочтительного инструмента, заключается в следующем: мой предпочтительный инструмент - оптимальный, то есть тот, который наилучшим образом соответствует поставленной задаче.
источник
Я думаю, что большинство людей отвечают, не имея хорошего знания об Excel. В Excel (с 2010 года) имеется столбчатая [многотабличная] база данных в памяти, которая называется power pivot (которая позволяет вводить данные из csv / database и т. Д.), Что позволяет хранить миллионы строк (ее не нужно загружать в электронную таблицу). , Он также имеет инструмент ETL, который называется power query, позволяющий вам читать данные из различных источников (включая hadoop). И у этого есть инструмент визуализации (представление власти и карта власти). Многие специалисты Data Science проводят агрегацию и топ-анализ, при котором мощность превосходит все. Добавьте к этому интерактивный характер этих инструментов - любой пользователь может легко перетащить измерение, в котором можно разбить результаты, и я надеюсь, что вы увидите преимущества. Так что да, вы не можете заниматься машинным обучением,
источник
В своей книге «Data Smart» Джон Форман решает общие проблемы науки о данных (кластеризация, наивный байесовский анализ, методы ансамбля и т. Д.) С помощью Excel. В самом деле, всегда хорошо иметь некоторые знания Python или R, но я думаю, что Excel все еще может выполнить большую часть работы!
источник
Я удивлен, как много людей привязаны к крутости профессии, а не к фактической работе, которую предстоит сделать. Excel - отличный инструмент, с бесплатным Powerpivot, Powerquery, он может сделать очень многое. (они не доступны в OS X). И если вы знаете VBA, вы можете сделать что-то хорошее. И затем, если вы добавите к вершине эти знания Python, вы можете объединить самые первые шаги извлечения данных и манипуляции с Python, а затем использовать Excel, особенно если вы визуальный человек. С помощью Excel вы можете действительно проверить агрегированные данные, прежде чем вводить их в какие-либо дальнейшие процессы или визуализировать. Это должен иметь инструмент.
источник
Excel допускает только очень маленькие данные и не имеет ничего достаточно полезного и гибкого для машинного обучения или даже для построения графиков. Все, что я хотел бы сделать в Excel, - это посмотреть на подмножество данных, чтобы на первый взгляд взглянуть на значения, чтобы убедиться, что я не пропускаю ничего видимого на глаз.
Так что, если его любимым инструментом является Excel, это может указывать на то, что он редко имеет дело с машинным обучением, статистикой, большими объемами данных или любыми сложными графиками. Кто-то вроде этого я бы не назвал Data Scientist. Конечно, названия не имеют значения, и это во многом зависит от ваших требований.
В любом случае, не делайте суждения на основании опыта или резюме. Я видел резюме и знал людей, стоящих за ним.
Не думай Проверь его! Вы должны быть достаточно хороши, чтобы настроить тест. Было показано, что одни только интервью почти бесполезны для определения навыков (они только показывают личность). Создайте очень простой контролируемый тест обучения и позвольте ему использовать любой инструмент, который он хочет.
И если вы хотите сначала проверить людей на собеседовании, то спросите его об основных, но важных взглядах на статистику или машинное обучение. То, что знает каждый из ваших нынешних сотрудников.
источник
Позвольте мне сначала уточнить, что я начинаю свое путешествие в науку о данных с точки зрения программиста и разработчика базы данных. Я не 10-летний эксперт по науке о данных и не статистический бог. Тем не менее, я работаю исследователем данных и большими наборами данных для компании, которая работает с довольно крупными клиентами по всему миру.
Исходя из моего опыта, специалист по данным использует все инструменты, необходимые для выполнения работы. Excel, R, SAS, Python и другие - все это инструменты в наборе инструментов для хорошего исследователя данных. Лучшие могут использовать самые разнообразные инструменты для анализа и анализа данных.
Поэтому, если вы обнаружите, что сравниваете R с Python, вы, вероятно, делаете все неправильно в мире наук о данных. Хороший ученый использует оба, когда имеет смысл использовать одно поверх другого. Это также относится к Excel.
Я думаю, что довольно сложно найти кого-то, кто будет иметь опыт работы с таким количеством различных инструментов и языков, в то же время преуспевая во всем. Я также думаю, что будет сложно найти специалиста по данным, который мог бы не только программировать сложные алгоритмы, но и знать, как использовать их с точки зрения статистики.
Большинство исследователей данных, с которыми я работал, имеют около 2 разновидностей. Те, которые могут программировать, и те, которые не могут. Я редко работаю с специалистом по данным, который может извлекать данные в Python, манипулировать ими с помощью чего-то вроде Pandas, подбирать модель к данным в R и затем представлять ее руководству в конце недели.
Я имею в виду, я знаю, что они существуют. Я читал много блогов по науке о данных от парней, разрабатывающих веб-скребки, вставляющих их в Hadoop, вытаскивающих их обратно в Python, программирующих сложные вещи и запускающих его через R для загрузки. Они существуют. Они там. Я просто не сталкивался со слишком многими, кто может сделать все это. Может быть, это только моя область, хотя?
Так значит ли это, что мы специализируемся только на одном плохом? Нет. Многие мои друзья специализируются только на одном основном языке и убивают его. Я знаю много данных, ребята, которые знают только R и убивают его. Я также знаю множество людей, которые просто используют Excel для анализа данных, потому что это единственное, что большинство ученых, не связанных с данными, могут открывать и использовать (особенно в компаниях B2B). Вопрос, на который вам действительно нужно ответить, заключается в том, является ли эта вещь единственной, которая вам нужна для этой должности? И самое главное, могут ли они учиться новому?
PS
Наука о данных не ограничивается только «БОЛЬШИМИ ДАННЫМИ» или NoSQL.
источник
Excel может быть отличным инструментом для исследовательского анализа данных, он действительно зависит от ваших потребностей и, конечно, имеет свои ограничения, как и любой инструмент, но Excel определенно заслуживает места в зале славы науки о данных.
Стоит помнить, что на практике большинство пользователей все равно будут изучать сильно сокращенный набор данных (созданный из запроса SQL).
Excel является мощным средством для исследования данных, когда вы используете объект «таблица» в сочетании с сводными таблицами, визуализация занимает всего 1-2 клика, и многие диаграммы Excel в PowerPoint выглядят великолепно, если только вы не хотите создавать что-то очень индивидуальное, например, в научный вычислительный контекст. Интерактивный характер означает, что вы можете быстро исследовать.
Преимущества объекта «таблица» состоят в том, что при дальнейшем преобразовании данных в Excel для изучения новых распределений все сводные таблицы запоминают переменную.
Если Excel слаб, это то, что список формул, возможно, является ограничивающим, например, оператор SQL или оператор Python гораздо более гибок, чем бесконечная цепочка функций if.
Это действительно зависит от ваших потребностей, но Excel определенно заслуживает места в зале славы науки о данных.
Интересный анекдот: команда, работающая над алгоритмом новостной ленты Facebook, регулярно демонстрирует игру с Excel и множеством электронных таблиц.
источник
Я преподаю курс Business Analytics, который включает в себя SQL и Excel. Я преподаю в бизнес-школе, поэтому мои ученики не обладают техническими способностями, поэтому я не использовал что-то вроде R, Pandas или Weka. При этом Excel является достаточно мощным инструментом для анализа данных. Он получает большую часть этих возможностей благодаря своей способности выступать в качестве внешнего интерфейса для служб аналитики SQL Server (компонент в SQL Server для анализа данных) с использованием надстройки интеллектуального анализа данных.
SSAS позволяет создавать деревья решений, выполнять линейные и логистические регрессии и даже создавать байесовские или нейронные сети. Я обнаружил, что использование Excel в качестве внешнего интерфейса представляет собой менее опасный подход к проведению такого рода анализов, поскольку все они использовали Excel раньше. Использовать SSAS без Excel можно через специализированную версию Visual Studio, и это не самый удобный инструмент. Когда вы объедините его с несколькими другими инструментами Excel, такими как Power Query и Power Pivot, вы сможете провести довольно сложный анализ данных.
Полное раскрытие, я, вероятно, не собираюсь использовать его снова, когда буду преподавать новую версию курса в следующем году (мы разбиваем его на два курса, чтобы один мог сосредоточиться на анализе данных). Но это только потому, что университет смог получить достаточно лицензий на Alteryx, который еще проще и мощнее в использовании, но стоит 4-85 тыс. Долл. США на пользователя в год, если вы не можете получить его бесплатно. Скажите, что вы хотите об Excel, но это лучше, чем цена.
источник
Excel может быть отличным инструментом. Конечно, в зависимости от того, что вы делаете, это может не отвечать всем требованиям, но если это произойдет, было бы почти глупо отклонить его. Хотя настройка конвейера занимает некоторое время, в Excel вы можете в полной мере работать: встроенный пользовательский интерфейс, простота расширения через VBA даже с Python (например, https://www.xlwings.org ). Это может быть не идеально, когда дело доходит до контроля версий, но есть способы заставить его работать с Git (например, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
источник
Этот человек работает с «большими данными» и в основном использует Excel? Шутки в сторону?!?! Excel обрабатывает только 1 048 576 строк данных в одной электронной таблице. Для наборов данных сверх этого необходим плагин. Кроме того, сводные таблицы в Excel имеют серьезные ограничения на анализ, который может быть выполнен с их использованием.
Какие типы задач анализа данных необходимо выполнить в работе, для которой вы нанимаете сотрудников?
Я предлагаю вам провести собеседования, которые включают тесты такого рода задач, которые необходимо выполнить в рассматриваемой работе. Не нарушая конфиденциальность, конфиденциальность или защиту данных, задача программирования или анализа данных, поставленная в ходе интервью, должна включать (псевдонимное) подмножество набора данных, относящегося к должности, для которой проводится опрос. В противном случае вы можете в конечном итоге набрать кого-то, кто четко сформулирует свое мнение на собеседовании, но на самом деле не компетентен в выполнении реальной работы.
источник