Вопросы с тегом «machine-learning»

45
Машинное обучение - особенности проектирования из данных даты / времени

Каковы общие / лучшие практики для обработки данных о времени для приложения машинного обучения? Например, если в наборе данных есть столбец с отметкой времени события, например «2014-05-05», как вы можете извлечь полезные функции из этого столбца, если таковые имеются? Заранее...

43
Добавление функций к модели временных рядов LSTM

немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь...

41
GBM против XGBOOST? Ключевые отличия?

Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким...

40
Наука о данных в C (или C ++)

Я Rпрограммист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS. Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру Rи имея только базовые знания других скриптовых / веб-языков, я...

40
Почему модели машинного обучения называют черными ящиками?

Я читал этот пост в блоге под названием «Финансовый мир хочет открыть черные ящики ИИ» , где автор неоднократно называет модели ML «черными ящиками». Подобная терминология использовалась в нескольких местах при обращении к моделям ML. Почему это так? Не то чтобы инженеры ML не знали, что происходит...

40
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?

Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во...

40
Могут ли алгоритмы машинного обучения предсказать спортивные результаты или результаты?

У меня есть множество наборов данных НФЛ, которые, я думаю, могли бы стать хорошим побочным проектом, но я пока ничего с ними не сделал. Приход на этот сайт заставил меня задуматься об алгоритмах машинного обучения, и мне стало интересно, насколько они хороши в прогнозировании результатов...

39
Когда что использовать - Машинное обучение [закрыто]

Недавно в классе машинного обучения профессора Ориола Пухоля в UPC / Барселона он описал наиболее распространенные алгоритмы, принципы и концепции, которые можно использовать для решения широкого круга задач, связанных с машинным обучением. Здесь я делюсь ими с вами и спрашиваю вас: Существует ли...

37
Как интерпретировать вывод значения XGBoost?

Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые...

35
Объяснение потери энтропии

Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я...

35
В контролируемом обучении, почему плохо иметь взаимосвязанные функции?

Я где-то читал, что если у нас есть функции, которые слишком коррелируют, мы должны удалить их, так как это может ухудшить модель. Понятно, что коррелированные признаки означают, что они приносят одну и ту же информацию, поэтому логично удалить один из них. Но я не могу понять, почему это может...

35
Смешные цитаты, связанные с наукой о данных

Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь...

34
Разница между `Dense` и` TimeDistributedDense` `Keras`

Я до сих пор путаю о разнице между Denseи TimeDistributedDenseиз Kerasхотя есть уже задавали некоторые подобные вопросы здесь и здесь . Люди много обсуждают, но нет общих согласованных выводов. И даже здесь @fchollet заявил, что: TimeDistributedDenseприменяет одну и ту же Dense(полностью...

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

30
Глубокое обучение против повышения градиента: когда и что использовать?

У меня проблема с большими данными с большим набором данных (например, 50 миллионов строк и 200 столбцов). Набор данных состоит из около 100 числовых столбцов и 100 категориальных столбцов и столбца ответов, представляющего проблему двоичного класса. Мощность каждого из категориальных столбцов...

30
В классификаторе softmax зачем использовать функцию exp для нормализации?

Зачем использовать softmax вместо стандартной нормализации? В области комментариев верхнего ответа на этот вопрос @Kilian Batzner поднял 2 вопроса, которые также очень меня смущают. Кажется, никто не дает объяснения, кроме численных преимуществ. Я понимаю причины использования Cross-Entropy Loss,...

30
Что такое функция Q и что такое функция V в обучении подкреплению?

Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет...

30
Что такое наземная истина

В контексте машинного обучения я часто видел термин « Основополагающая истина» . Я много искал и нашел следующее определение в Википедии : В машинном обучении термин «наземная истина» относится к точности классификации учебного набора для контролируемых методов обучения. Это используется в...

30
Почему данные должны быть перетасованы для задач машинного обучения

В задачах машинного обучения обычно перетасовывать данные и нормализовать их. Цель нормализации ясна (для того же диапазона значений признаков). Но после долгих попыток я не нашел какой-либо ценной причины для перетасовки данных. Я прочитал этот пост здесь, обсуждая, когда мы должны перетасовать...

29
Краткое руководство по обучению сильно несбалансированных наборов данных

У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о...