Наука о данных

Вопросы и ответы для специалистов по науке о данных, специалистов по машинному обучению и тех, кто хочет больше узнать об этой области

188
Что такое деконволюционные слои?

Недавно я прочитал « Полностью сверточные сети для семантической сегментации » Джонатана Лонга, Эвана Шелхамера, Тревора Даррелла. Я не понимаю, что делают "деконволюционные слои" / как они работают. Соответствующая часть 3.3. Апсэмплинг - обратная свертка Другим способом подключения грубых выходов...

168
Публично доступные наборы данных

Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на...

133
Кластеризация K-средних для смешанных числовых и категориальных данных

Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную...

130
Как установить веса классов для несбалансированных классов в Керасе?

Я знаю, что в Керасе есть возможность при подборе class_weightsсловаря параметров, но я не смог найти ни одного примера. Будет ли кто-то так любезно предоставить? Кстати, в этом случае подходящей практикой является просто взвесить класс меньшинства пропорционально его...

119
В чем проблема «умирающего ReLU» в нейронных сетях?

Ссылаясь на заметки Стэнфордского курса о сверточных нейронных сетях для визуального распознавания , в параграфе говорится: «К сожалению, юниты ReLU могут быть хрупкими во время обучения и могут« умереть ». Например, большой градиент, протекающий через нейрон ReLU, может привести к тому, что веса...

115
Функция кросс-энтропийной ошибки в нейронных сетях

В MNIST для начинающих ML они определяют кросс-энтропию как Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) yiyiy_i - это прогнозируемое значение вероятности для классаiii аy′iyi′y_i' - истинная вероятность для этого класса. Вопрос 1 Разве это не проблема, что...

110
Разница между fit и fit_transform в моделях scikit_learn?

Я новичок в науке данных , и я не понимаю разницу между fitи fit_transformметоды в scikit-учиться. Кто-нибудь может просто объяснить, почему нам может понадобиться преобразовать данные? Что означает подгонка модели к тренировочным данным и преобразование в тестовые данные? Означает ли это,...

103
Микро-средняя и Макро-средняя производительность в настройке классификации мультикласса

Я пробую настройку мультиклассовой классификации с 3 классами. Распределение классов искажено, большая часть данных попадает в 1 из 3 классов. (метки классов 1,2,3, при этом 67,28% данных попадают в метку класса 1, 11,99% данных в классе 2 и остаются в классе 3) Я обучаю мультиклассовый...

101
Python vs R для машинного обучения

Я только начинаю разрабатывать приложение машинного обучения для академических целей. В настоящее время я использую R и тренируюсь в этом. Тем не менее, во многих местах я видел людей, использующих Python . Что люди используют в научных кругах и промышленности, и какова...

98
Когда использовать One Hot Encoding против LabelEncoder против DictVectorizor?

Я уже некоторое время строю модели с категориальными данными, и когда в этой ситуации я в основном по умолчанию использую функцию LabelEncoder scikit-learn для преобразования этих данных до построения модели. Я понимаю разницу между OHE, LabelEncoderи DictVectorizorс точки зрения того, что они...

95
Когда использовать GRU поверх LSTM?

Основное различие между ГРУ и LSTM является то , что ГРУ имеет два ворот ( сброс и обновление Gates) в то время как LSTM имеет три ворота (а именно вход , выход и забыть ворота). Почему мы используем GRU, когда мы четко контролируем сеть через модель LSTM (так как у нас три шлюза)? В каком сценарии...

86
Насколько велики большие данные?

Многие люди используют термин « большие данные» довольно коммерческим способом, чтобы показать, что в вычислениях участвуют большие наборы данных, и поэтому потенциальные решения должны иметь хорошую производительность. Конечно, большие данные всегда имеют связанные термины, такие как...

85
Выбор скорости обучения

В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента...

80
Как вы визуализируете архитектуры нейронных сетей?

При написании статьи / создании презентации по теме, касающейся нейронных сетей, обычно визуализируют архитектуру сетей. Каковы хорошие / простые способы автоматической визуализации общих...

76
SVM с использованием scikit learn работает бесконечно и никогда не завершает выполнение

Я пытаюсь запустить SVR, используя scikit learn (python) для обучающего набора данных, имеющего 595605 строк и 5 столбцов (функций), и тестового набора данных, имеющего 397070 строк. Данные были предварительно обработаны и упорядочены. Я могу успешно запустить тестовые примеры, но, выполнив мой...

73
Разница между isna () и isnull () в пандах

Я уже давно пользуюсь пандами. Но я не понял, в чем разница между isna()и isnull()в пандах. И, что более важно, какой из них использовать для определения пропущенных значений в кадре данных. Какова основная разница в том, как значение определяется как naили...

73
Почему функции стоимости используют квадратную ошибку?

Я только начинаю с машинного обучения, и до сих пор я имел дело с линейной регрессией по одной переменной. Я узнал, что существует гипотеза: часθ( х ) = θ0+ θ1Иксhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Чтобы найти хорошие значения для параметров и мы хотим минимизировать разницу между...

69
Почему люди предпочитают панды SQL?

Я использую SQL с 1996 года, поэтому я могу быть предвзятым. Я широко использовал MySQL и SQLite 3, но также использовал Microsoft SQL Server и Oracle. Подавляющее большинство операций, которые я видел в Pandas, можно сделать проще с помощью SQL. Это включает в себя фильтрацию набора данных, выбор...