Наука о данных без знания конкретной темы, стоит ли заниматься карьерой? [закрыто]

15

Недавно я разговаривал с кем-то и упомянул о моем интересе к анализу данных и о том, кого я намереваюсь освоить необходимые навыки и инструменты. Они предложили мне, что, хотя было бы здорово изучить инструменты и развить навыки, в этом нет особого смысла, если у меня нет специальных знаний в конкретной области.

По сути, они сводились к тому, что я был бы просто строителем с кучей инструментов, которые могли бы построить несколько деревянных ящиков и, возможно, построить лучшие вещи (каюты, шкафы и т. Д.), Но без знаний в конкретной области я бы никогда не стал быть строителем люди пришли бы для конкретного продукта.

Кто-нибудь нашел это или есть какие-либо мнения о том, что с этим делать? Казалось бы, если бы это было правдой, нужно было бы изучать аспекты науки о данных вещей, а затем изучать новую область, чтобы стать специализированным.

user3754366
источник
Хотя ваш вопрос действителен, это не подходящее место для него. Вопросы, связанные с карьерой, рассматриваются здесь не по теме.
Шелдонкрегер
Непонятно, о чем вы спрашиваете - лучше изучать инструменты или собирать предметные знания? вероятно, слишком открытый и основанный на мнении для StackExchange.
Шон Оуэн

Ответы:

43

Дрю Конуэй опубликовал Data Science Venn Diagram , с чем я искренне согласен:

Data Science Venn Diagram

С одной стороны, вы должны действительно прочитать его пост. С другой стороны, я могу предложить свой собственный опыт: мой предметный опыт (который мне нравится больше как термин, чем «субстантивная экспертиза», потому что у вас действительно должна быть «субстантивная экспертиза» в математике / статистике и взломе) находится в розничный бизнес, моя математика / статистика - прогнозирование и логическая статистика, а мои хакерские навыки лежат в R.

С этой точки зрения я могу поговорить и понять ритейлеров, и кому-то, кто не обладает хотя бы небольшим знанием этой области, придется столкнуться с крутой кривой обучения в проекте с ритейлерами. Как побочный концерт, я занимаюсь статистикой в ​​психологии, и там точно так же. И даже имея достаточно знаний о части диаграммы хакерских / математических / статистических данных, мне было бы трудно быстро набрать, скажем, кредитный скоринг или какую-то другую новую предметную область.

Если у вас есть определенное количество математических / статистических данных и навыков хакерства, гораздо лучше приобрести знания по одному или нескольким предметам, чем добавлять еще один язык программирования к своим навыкам хакерства, или жедругой алгоритм машинного обучения для вашего портфолио по математике / статистике. В конце концов, если у вас есть прочная основа математики / статистики / хакерства, вы можете при необходимости изучить такие новые инструменты из Интернета или из учебников за относительно короткий промежуток времени. Но предметная экспертиза, с другой стороны, вы, вероятно, не сможете учиться с нуля, если начнете с нуля. И клиенты скорее будут работать с некоторым специалистом по данным A, который понимает свою конкретную область, чем с другим специалистом по данным B, которому сначала необходимо изучить основы - даже если B лучше разбирается в математике / статистике / хакерстве.

Конечно, все это также будет означать, что вы никогда не станете экспертом ни в одной из трех областей. Но это нормально, потому что вы - специалист по данным, а не программист, статистик или специалист по предметам. В трех отдельных кругах всегда будут люди, у которых вы можете учиться. Что является частью того, что мне нравится в науке о данных.


РЕДАКТИРОВАТЬ: Через некоторое время и несколько мыслей, я хотел бы обновить этот пост с новой версией диаграммы. Я по-прежнему считаю, что навыки хакерства, знания по математике и статистике и практические знания (сокращенные до «Программирование», «Статистика» и «Бизнес» для ясности) важны ... но я думаю, что также важна роль общения . Все идеи, которые вы получите, используя свои хакерские данные, статистику и бизнес-опыт, не будут иметь большого значения, если вы не сможете донести их до людей, которые могут не обладать этой уникальной смесью знаний. Возможно, вам придется объяснить свои статистические данные бизнес-менеджеру, которого нужно убедить тратить деньги или изменить процессы. Или программисту, который не мыслит статистически.

Итак, вот новая диаграмма Венна для науки о данных, которая также включает коммуникацию как один из незаменимых ингредиентов. Я пометил области так, чтобы они гарантировали максимальное пламя, но при этом их было легко запомнить.

Комментарий прочь.

новая диаграмма науки Венна

Код R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()
Стефан Коласса
источник
1
Я был принесен здесь сообщением в блоге, ссылающимся на вашу обновленную диаграмму. Я думаю, что это большое улучшение по сравнению с оригинальной версией Конвея, хотя я не могу полностью отказаться от понятия - подразумеваемого размером наложения - что специалист по статистике - это человек с равными навыками в области статистики и коммуникации.
Роберт де Грааф
1

Что вы можете. Компании требуют данных ученых. Будьте осторожны, хотя они все интерпретируют термин по-разному. В зависимости от компании вас могут попросить сделать что-нибудь от статистики до написания производственного кода. Либо это работа на полный рабочий день сама по себе, и вы должны быть готовы к обоим, поэтому требовать глубоких специализированных знаний помимо этого, на мой взгляд, не разумно, и компании, с которыми я говорил, подчеркнули другие две области ( особенно программирование). Однако я обнаружил, что это помогает узнать о типах проблем, с которыми вы можете столкнуться. В зависимости от сектора это может быть обнаружение аномалий, рекомендации / персонализация, прогнозирование, привязка записей и т. Д. Это то, что вы можете выучить в качестве примеров одновременно с математикой и программированием.

Эмре
источник