Наука о данных - страница 4

40

Могут ли алгоритмы машинного обучения предсказать спортивные результаты или результаты?

У меня есть множество наборов данных НФЛ, которые, я думаю, могли бы стать хорошим побочным проектом, но я пока ничего с ними не сделал. Приход на этот сайт заставил меня задуматься об алгоритмах машинного обучения, и мне стало интересно, насколько они хороши в прогнозировании результатов...

machine-learning sports

40

Почему модели машинного обучения называют черными ящиками?

Я читал этот пост в блоге под названием «Финансовый мир хочет открыть черные ящики ИИ» , где автор неоднократно называет модели ML «черными ящиками». Подобная терминология использовалась в нескольких местах при обращении к моделям ML. Почему это так? Не то чтобы инженеры ML не знали, что происходит...

machine-learning terminology

39

Когда что использовать - Машинное обучение [закрыто]

Недавно в классе машинного обучения профессора Ориола Пухоля в UPC / Барселона он описал наиболее распространенные алгоритмы, принципы и концепции, которые можно использовать для решения широкого круга задач, связанных с машинным обучением. Здесь я делюсь ими с вами и спрашиваю вас: Существует ли...

machine-learning algorithms

38

Влияет ли batch_size в Keras на качество результатов?

Я собираюсь обучить большую сеть LSTM с 2-3 миллионами статей и борюсь с ошибками памяти (я использую AWS EC2 g2x2large). Я обнаружил, что одним из решений является снижение batch_size. Однако я не уверен, относится ли этот параметр только к проблемам эффективности памяти или повлияет ли он на мои...

deep-learning keras

38

Нужно ли учить Hadoop быть специалистом по данным?

Стремящийся ученый данных здесь. Я ничего не знаю о Hadoop, но, поскольку я читал о Data Science и Big Data, я вижу много разговоров о Hadoop. Обязательно ли учить Hadoop быть специалистом по...

bigdata apache-hadoop

38

В чем разница между «эквивалентным переводу» и «инвариантным переводом»

У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом . В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях: [...] особая форма совместного использования параметров приводит к тому, что уровень...

neural-network deep-learning convolution

37

Есть ли у scikit-learn алгоритм прямого выбора / ступенчатой регрессии?

Я работаю над проблемой со слишком многими функциями, и обучение моих моделей занимает слишком много времени. Я реализовал алгоритм прямого выбора для выбора функций. Однако мне было интересно, есть ли у scikit-learn алгоритм прямого выбора / пошаговой...

feature-selection scikit-learn

37

Используют ли ученые данных Excel?

Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми...

tools career excel

37

Как интерпретировать вывод значения XGBoost?

Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые...

machine-learning xgboost

35

Что вы думаете о сертификатах Data Science?

Теперь я видел две программы сертификации в области науки о данных - одну из программ Джона Хопкинса, доступную на Coursera, и одну из Cloudera . Я уверен, что есть и другие. Набор классов Джона Хопкинса сфокусирован на R как на наборе инструментов, но охватывает ряд тем: R Программирование очистка...

education

35

Объяснение потери энтропии

Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я...

machine-learning deep-learning

35

В контролируемом обучении, почему плохо иметь взаимосвязанные функции?

Я где-то читал, что если у нас есть функции, которые слишком коррелируют, мы должны удалить их, так как это может ухудшить модель. Понятно, что коррелированные признаки означают, что они приносят одну и ту же информацию, поэтому логично удалить один из них. Но я не могу понять, почему это может...

machine-learning correlation

35

Смешные цитаты, связанные с наукой о данных

Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь...

machine-learning neural-network deep-learning

35

Расчет и визуализация корреляционной матрицы с пандами

У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый...

python statistics visualization pandas

34

Разница между `Dense` и` TimeDistributedDense` `Keras`

Я до сих пор путаю о разнице между Denseи TimeDistributedDenseиз Kerasхотя есть уже задавали некоторые подобные вопросы здесь и здесь . Люди много обсуждают, но нет общих согласованных выводов. И даже здесь @fchollet заявил, что: TimeDistributedDenseприменяет одну и ту же Dense(полностью...

machine-learning neural-network keras

34

Организованные процессы для очистки данных

Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные...

r data-cleaning

34

Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

machine-learning data-mining nlp text-mining similarity

33

Multi GPU в керасе

Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен...

python deep-learning tensorflow keras gpu

33

Открытие 20ГБ файла для анализа с пандами

В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если нет, знаете...

python bigdata pandas anaconda

32

Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?

Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к...

deep-learning tensorflow word-embeddings sampling loss-function