Наука о данных

40
Могут ли алгоритмы машинного обучения предсказать спортивные результаты или результаты?

У меня есть множество наборов данных НФЛ, которые, я думаю, могли бы стать хорошим побочным проектом, но я пока ничего с ними не сделал. Приход на этот сайт заставил меня задуматься об алгоритмах машинного обучения, и мне стало интересно, насколько они хороши в прогнозировании результатов...

40
Почему модели машинного обучения называют черными ящиками?

Я читал этот пост в блоге под названием «Финансовый мир хочет открыть черные ящики ИИ» , где автор неоднократно называет модели ML «черными ящиками». Подобная терминология использовалась в нескольких местах при обращении к моделям ML. Почему это так? Не то чтобы инженеры ML не знали, что происходит...

39
Когда что использовать - Машинное обучение [закрыто]

Недавно в классе машинного обучения профессора Ориола Пухоля в UPC / Барселона он описал наиболее распространенные алгоритмы, принципы и концепции, которые можно использовать для решения широкого круга задач, связанных с машинным обучением. Здесь я делюсь ими с вами и спрашиваю вас: Существует ли...

38
Влияет ли batch_size в Keras на качество результатов?

Я собираюсь обучить большую сеть LSTM с 2-3 миллионами статей и борюсь с ошибками памяти (я использую AWS EC2 g2x2large). Я обнаружил, что одним из решений является снижение batch_size. Однако я не уверен, относится ли этот параметр только к проблемам эффективности памяти или повлияет ли он на мои...

38
В чем разница между «эквивалентным переводу» и «инвариантным переводом»

У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом . В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях: [...] особая форма совместного использования параметров приводит к тому, что уровень...

37
Есть ли у scikit-learn алгоритм прямого выбора / ступенчатой ​​регрессии?

Я работаю над проблемой со слишком многими функциями, и обучение моих моделей занимает слишком много времени. Я реализовал алгоритм прямого выбора для выбора функций. Однако мне было интересно, есть ли у scikit-learn алгоритм прямого выбора / пошаговой...

37
Используют ли ученые данных Excel?

Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми...

37
Как интерпретировать вывод значения XGBoost?

Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые...

35
Что вы думаете о сертификатах Data Science?

Теперь я видел две программы сертификации в области науки о данных - одну из программ Джона Хопкинса, доступную на Coursera, и одну из Cloudera . Я уверен, что есть и другие. Набор классов Джона Хопкинса сфокусирован на R как на наборе инструментов, но охватывает ряд тем: R Программирование очистка...

35
Объяснение потери энтропии

Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я...

35
В контролируемом обучении, почему плохо иметь взаимосвязанные функции?

Я где-то читал, что если у нас есть функции, которые слишком коррелируют, мы должны удалить их, так как это может ухудшить модель. Понятно, что коррелированные признаки означают, что они приносят одну и ту же информацию, поэтому логично удалить один из них. Но я не могу понять, почему это может...

35
Смешные цитаты, связанные с наукой о данных

Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь...

35
Расчет и визуализация корреляционной матрицы с пандами

У меня есть фрейм данных Pandas с несколькими записями, и я хочу рассчитать корреляцию между доходами магазинов определенного типа. Есть ряд магазинов с данными о доходах, классификацией области деятельности (театр, магазины одежды, продукты питания ...) и другими данными. Я попытался создать новый...

34
Разница между `Dense` и` TimeDistributedDense` `Keras`

Я до сих пор путаю о разнице между Denseи TimeDistributedDenseиз Kerasхотя есть уже задавали некоторые подобные вопросы здесь и здесь . Люди много обсуждают, но нет общих согласованных выводов. И даже здесь @fchollet заявил, что: TimeDistributedDenseприменяет одну и ту же Dense(полностью...

34
Организованные процессы для очистки данных

Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные...

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

33
Multi GPU в керасе

Как вы можете программировать в библиотеке keras (или тензорном потоке), чтобы разделить обучение на несколько графических процессоров? Допустим, вы находитесь в экземпляре Amazon ec2 с 8 графическими процессорами, и вы хотели бы использовать их все для ускорения обучения, но ваш код предназначен...

33
Открытие 20ГБ файла для анализа с пандами

В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер файла составляет 18 ГБ, а объем оперативной памяти - 32 ГБ, но я получаю ошибки памяти. Из вашего опыта это возможно? Если нет, знаете...

32
Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?

Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к...