Наука о данных

66
Специалист по данным против инженера машинного обучения

Каковы различия, если таковые имеются, между «ученым данных» и «инженером машинного обучения»? За прошедший год или около того «инженер машинного обучения» стал часто появляться на вакансиях. Это особенно заметно в Сан-Франциско, где, возможно, и возник термин «ученый данных». В какой-то момент...

66
Когда я должен использовать Gini Impurity, а не Gain?

Может ли кто-нибудь практически объяснить обоснованность примеси Джини против получения информации (на основе энтропии)? Какой показатель лучше использовать в различных сценариях при использовании деревьев...

64
строки как объекты в дереве решений / случайном лесу

Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так...

64
Обучение RNN с примерами различной длины в Керасе

Я пытаюсь начать изучать RNN и использую Keras. Я понимаю основную предпосылку ванильных слоев RNN и LSTM, но у меня возникают проблемы с пониманием определенного технического аспекта обучения. В документации keras говорится, что входные данные для слоя RNN должны иметь форму (batch_size,...

64
Прогнозирование временных рядов с использованием ARIMA против LSTM

Проблема, с которой я имею дело, заключается в прогнозировании значений временных рядов. Я смотрю на один временной ряд за раз и на основе, например, 15% входных данных, я хотел бы предсказать его будущие значения. До сих пор я сталкивался с двумя моделями: LSTM (долговременная кратковременная...

64
Преимущества AUC по сравнению со стандартной точностью

Я начал изучать область под кривой (AUC) и немного запутался в ее полезности. Когда мне впервые объяснили, AUC показался отличным показателем производительности, но в моем исследовании я обнаружил, что некоторые утверждают, что его преимущество в основном незначительно, так как он лучше всего...

63
Как получить корреляцию между двумя категориальными переменными и категориальными переменными и непрерывными переменными?

Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции Корреляция между 2 многоуровневыми категориальными переменными Корреляция между многоуровневой категориальной переменной и непрерывной переменной VIF (коэффициент инфляции дисперсии) для многоуровневых...

62
Backprop через слои максимального пула?

Это небольшой концептуальный вопрос, который мучил меня некоторое время: как мы можем распространяться обратно через слой максимального пула в нейронной сети? Я наткнулся на слои с максимальным объединением, проходя этот урок для библиотеки nn в Torch 7. Библиотека абстрагирует вычисление градиента...

61
Обнаружение аномалий с открытым исходным кодом в Python

Проблема: я работаю над проектом, в котором используются файлы журналов, аналогичные тем, которые находятся в пространстве мониторинга ИТ (насколько я понимаю, пространство ИТ). Эти файлы журнала представляют собой данные временных рядов, организованные в сотни / тысячи строк с различными...

59
Что такое уменьшение размерности? В чем разница между выбором объектов и извлечением?

Из википедии, Уменьшение размерности или уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор и извлечение признаков. В чем разница между выбором и извлечением объектов? Что является примером уменьшения размерности в задаче...

58
Машины опорных векторов по-прежнему считаются «современными» в своей нише?

Этот вопрос является ответом на комментарий, который я увидел по другому вопросу. Комментарий касался учебного курса по машинному обучению на Coursera, а также «SVM не так часто используются в наши дни». Я только что закончил соответствующие лекции сам, и мое понимание SVM состоит в том, что они...

56
Когда модель недостаточно подходит?

Логика часто утверждает, что при недостаточном подборе модели ее способность к обобщению увеличивается. Тем не менее, в какой-то момент недооценка модели приводит к ухудшению моделей независимо от сложности данных. Как узнать, когда ваша модель достигла правильного баланса и не соответствует...

55
Как свертки 1x1 совпадают с полностью связным слоем?

Я недавно прочитал комментарий Яна ЛеКуна о свертках 1x1 : В Сверточных Сетях не существует такого понятия, как «полностью связанные слои». Существуют только слои свертки с ядрами свертки 1x1 и полной таблицей соединений. Это слишком редко понимаемый факт, что ConvNets не должен иметь вход...

53
Почему интернет-компании предпочитают Java / Python для работы с данными?

Я часто вижу в описании работы для специалиста по данным, спрашивающего опыт работы с Python / Java, и не обращаю внимания на R. Ниже приведено личное письмо, которое я получил от главного специалиста по данным компании, в которую я обратился через linkedin. X, спасибо за подключение и проявление...

53
RNN против CNN на высоком уровне

Я думал о рекуррентных нейронных сетях (RNN) и их разновидностях, а также о сверточных нейронных сетях (CNN) и их разновидностях. Будут ли справедливы эти два момента, чтобы сказать: Используйте CNN, чтобы разбить компонент (например, изображение) на подкомпоненты (например, объект на изображении,...

51
Кластеризация координат географического местоположения (широта, длинные пары)

Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x,...

51
Когда использовать (He или Glorot) нормальную инициализацию поверх равномерного init? И каковы его эффекты с нормализацией партии?

Я знал, что Residual Network (ResNet) сделал обычную инициализацию популярной. В ResNet используется обычная инициализация He , в то время как первый уровень использует равномерную инициализацию He. Я просмотрел документ ResNet и документ «Углубление в выпрямители» (документ об инициализации), но я...

50
Как бороться с подгонкой в ​​глубокой нейронной сети

Когда я начинал с искусственных нейронных сетей (NN), я думал, что мне придется бороться с переоснащением в качестве основной проблемы. Но на практике я даже не могу заставить свой NN пройти барьер 20% ошибок. Я даже не могу побить свой счет в случайном лесу! Я ищу какой-то очень общий или не очень...

50
Инструменты и протокол для воспроизводимых данных науки с использованием Python

Я работаю над проектом данных науки с использованием Python. Проект имеет несколько этапов. Каждый этап состоит из взятия набора данных, использования скриптов Python, вспомогательных данных, конфигурации и параметров и создания другого набора данных. Я храню код в git, так что эта часть покрыта. Я...