Наука о данных

49
Почему переобучение плохо в машинном обучении?

Логика часто утверждает, что из-за переобучения модели ее способность к обобщению ограничена, хотя это может означать лишь то, что переоснащение мешает модели улучшиться после определенной сложности. Вызывает ли переоснащение моделей ухудшение независимо от сложности данных, и если да, то почему...

49
Скрытое распределение Дирихле против иерархического процесса Дирихле

Скрытое выделение Дирихле (LDA) и иерархический процесс Дирихле (HDP) являются темами процессов моделирования. Основное различие заключается в том, что LDA требует уточнения количества тем, а HDP - нет. Почему это так? И каковы различия, плюсы и минусы обоих тематических методов...

49
Нейронные сети: какую функцию стоимости использовать?

Я использую TensorFlow для экспериментов в основном с нейронными сетями. Хотя я провел довольно много экспериментов (XOR-Problem, MNIST, некоторые вещи регрессии, ...), я борюсь с выбором «правильной» функции стоимости для конкретных задач, потому что в целом я мог бы считаться новичком. До прихода...

48
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?

Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения...

48
Подходит ли язык R для больших данных

R имеет много библиотек, которые предназначены для анализа данных (например, JAGS, BUGS, ARULES и т. Д.), И упоминается в популярных учебниках, таких как: J. Krusche, Doing Bayesian Data Analysis; Б.Ланц, "Машинное обучение с R". Я видел рекомендацию в 5 ТБ для набора данных, который следует...

48
Есть ли домен, в котором байесовские сети превосходят нейронные сети?

Нейронные сети получают лучшие результаты в задачах Computer Vision (см. MNIST , ILSVRC , Kaggle Galaxy Challenge ). Кажется, они превосходят любой другой подход в Computer Vision. Но есть и другие задачи: Kaggle Molecular Activity Challenge Регрессия: предсказание Kaggle Rain , также 2-е место...

46
Как бороться с управлением версиями больших объемов (двоичных) данных

Я аспирант геофизики и работаю с большими объемами графических данных (сотни ГБ, десятки тысяч файлов). Я хорошо знаю svnи gitприхожу оценивать историю проекта в сочетании с возможностью легко работать вместе и иметь защиту от повреждения диска. Я нахожу gitтакже чрезвычайно полезным для создания...

46
Альтернативы IDE для R-программирования (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Я использую RStudio для программирования R. Я помню твердые IDE из других технологических стеков, таких как Visual Studio или Eclipse. У меня есть два вопроса: Какие другие IDE, кроме RStudio, используются (пожалуйста, подумайте над предоставлением краткого описания для них). Есть ли у кого-нибудь...

45
Машинное обучение - особенности проектирования из данных даты / времени

Каковы общие / лучшие практики для обработки данных о времени для приложения машинного обучения? Например, если в наборе данных есть столбец с отметкой времени события, например «2014-05-05», как вы можете извлечь полезные функции из этого столбца, если таковые имеются? Заранее...

44
Какой объем данных является работой ученого по обработке данных?

В настоящее время я работаю специалистом по обработке данных в розничной компании (моя первая работа в DS, поэтому этот вопрос может быть результатом моего отсутствия опыта). У них огромное количество действительно важных проектов в области науки о данных, которые могут оказать большое...

43
Количество параметров в модели LSTM

Сколько параметров у одного стекового LSTM? Количество параметров накладывает нижнюю границу на количество необходимых обучающих примеров, а также влияет на время обучения. Следовательно, знание количества параметров полезно для моделей обучения, использующих...

43
Добавление функций к модели временных рядов LSTM

немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь...

42
ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')

Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка:...

42
В чем разница между LeakyReLU и PReLU?

f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Керас, однако, выполняет обе функции в документах . Leaky ReLU Источник LeakyReLU : return K.relu(inputs, alpha=self.alpha) Следовательно (см. Код relu ) е1( x ) = max ( 0 , x ) - α...

42
Как я могу преобразовать имена в конфиденциальный набор данных, чтобы сделать его анонимным, но сохранить некоторые характеристики имен?

мотивация Я работаю с наборами данных, которые содержат информацию, позволяющую установить личность (PII), и иногда мне приходится делиться частью набора данных с третьими сторонами таким образом, чтобы не подвергать PII и не подвергать моего работодателя ответственности. Наш обычный подход -...

41
Косинусное сходство против точечного произведения как метрики расстояния

Похоже, что косинусное сходство двух признаков - это просто их точечное произведение, масштабированное произведением их величин. Когда косинусное сходство делает лучшую метрику расстояния, чем скалярное произведение? Т.е. имеют ли точечное произведение и косинусное сходство разные сильные или...

41
GBM против XGBOOST? Ключевые отличия?

Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким...

41
Как подготовить / дополнить изображения для нейронной сети?

Я хотел бы использовать нейронную сеть для классификации изображений. Я начну с предварительно обученного CaffeNet и обучу его для моего приложения. Как подготовить входные изображения? В этом случае все изображения имеют один и тот же объект, но с вариациями (подумайте: контроль качества). Они...

40
Наука о данных в C (или C ++)

Я Rпрограммист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS. Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру Rи имея только базовые знания других скриптовых / веб-языков, я...

40
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?

Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во...