Наука о данных

9
Почему бы не обучить окончательную модель полным данным после выполнения тестовых данных на основе настройки гиперпараметра и данных проверки на основе выбора модели?

Под всеми данными я имею в виду поезд + тест + проверка После того, как я исправил свой гиперпараметр, используя данные проверки, и выбрал модель, используя данные испытаний, не лучше ли будет обучать модель на всех данных, чтобы параметры лучше обучались, а не обучали модель только на данные...

9
Классифицировать многомерный временной ряд

У меня есть набор данных, состоящий из временных рядов (8 точек) примерно с 40 измерениями (поэтому каждый временной ряд равен 8 на 40). Соответствующий результат (возможные результаты для категорий) равен 0 или 1. Каков наилучший подход для разработки классификатора для временных рядов с...

9
t-SNE: почему одинаковые значения данных визуально не близки?

У меня есть 200 точек данных, которые имеют одинаковые значения для всех функций. После уменьшения размера t-SNE они больше не выглядят такими ровными, вот так: Почему они не находятся в одной точке визуализации и даже, кажется, распределены в двух разных...

9
Как мне подойти к проблеме классификации, когда один из классов определяется как «ни один из других»?

Предположим, что меня интересуют три класса , c 2 , c 3 . Но мой набор данных на самом деле содержит еще несколько реальных классов ( c j ) n j = 4 .с1c1c_1с2c2c_2с3с3c_3( сJ)NJ = 4(сJ)Jзнак равно4N(c_j)_{j=4}^n Очевидный ответ , чтобы определить новый класс гр 4 , который относится ко всем классам...

9
«Теорема глубокого Нётера»: построение в симметрийных ограничениях

Если у меня есть проблема обучения, которая должна иметь внутреннюю симметрию, есть ли способ подвергнуть мою проблему обучения ограничению симметрии для улучшения обучения? Например, если я делаю распознавание изображения, мне может потребоваться 2D симметрия вращения. Это означает, что повернутая...

9
Может ли HDF5 надежно записываться и считываться одновременно отдельными процессами Python?

Я пишу сценарий для записи живых данных с течением времени в один файл HDF5, который включает весь мой набор данных для этого проекта. Я работаю с Python 3.6 и решил создать инструмент командной строки, используя clickдля сбора данных. Меня беспокоит, что произойдет, если сценарий сбора данных...

9
Как мне реализовать сигмовидную функцию в Octave? [закрыто]

Закрыто . Этот вопрос нуждается в деталях или ясности . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Добавьте детали и проясните проблему, отредактировав этот пост . Закрыто 2 года назад . Итак, учитывая, что сигмовидная функция определяется как hθ (x) = g (θ ^ (T) x),...

9
Какой алгоритм применить для выбора правильной точки

На рисунке ниже показано 7 точек вокруг начала координат. Один из них был выбран человеком на основе правил и опыта и окрашен в красный цвет (тот, что в левом нижнем квадранте). Теперь у нас есть более 1000 таких наборов точек, и для каждого набора человек выбрал одну точку. Эти условия...

9
Несбалансированные данные, приводящие к неправильной классификации в мультиклассовом наборе данных

Я работаю над классификацией текста, где у меня 39 категорий / классов и 8,5 миллионов записей. (В дальнейшем данные и категории будут увеличиваться). Структура или формат моих данных выглядит следующим образом....

9
какие методы машинного / глубокого обучения / nlp используются для классификации данных слов как имени, номера мобильного телефона, адреса, адреса электронной почты, штата, округа, города и т. д.

Я пытаюсь создать интеллектуальную модель, которая может сканировать набор слов или строк и классифицировать их как имена, мобильные номера, адреса, города, штаты, страны и другие объекты, используя машинное обучение или глубокое обучение. Я искал подходы, но, к сожалению, не нашел подходов. Я...

9
Означает ли пакетная нормализация, что сигмоиды работают лучше, чем ReLU?

Пакетная нормализация и ReLU являются решениями проблемы исчезающего градиента. Если мы используем пакетную нормализацию, должны ли мы тогда использовать сигмоиды? Или есть функции ReLU, которые делают их полезными даже при использовании batchnorm? Я предполагаю, что нормализация, выполненная в...

9
Почему моя модель Keras учится распознавать фон?

Я пытаюсь обучить эту реализацию Keras Deeplabv3 + на Pascal VOC2012, используя предварительно обученную модель (которая также обучалась на этом наборе данных). Я получил странные результаты с точностью, быстро сходящейся к 1,0: 5/5 [==============================] - 182s 36s/step - loss:...

9
SGDClassifier: онлайн-обучение / part_fit с ранее неизвестным ярлыком

Мой тренировочный набор содержит около 50 тысяч записей, с которыми я делаю начальное обучение. На еженедельной основе добавляется ~ 5 тыс. Записей; но такое же количество «исчезает» (так как это пользовательские данные, которые должны быть удалены через некоторое время). Поэтому я использую...

8
Почему регрессия Gradient Boosting предсказывает отрицательные значения, когда в моем тренировочном наборе нет отрицательных значений y?

Как я могу увеличить количество деревьев в scikit узнать «S GradientBoostingRegressor, я получаю более негативные прогнозы, несмотря на то, нет отрицательных значений в моем обучении или тестирования набора. У меня есть около 10 функций, большинство из которых являются двоичными. Вот некоторые...

8
Учебники по теме моделей и LDA

Я хотел бы знать, есть ли у вас хорошие учебные пособия (быстрые и понятные) о тематических моделях и LDA, обучающие интуитивно, как устанавливать некоторые параметры, что они означают и, если возможно, с некоторыми реальными...

8
Существуют ли методы машинного обучения для определения точек на графиках / изображениях?

У меня есть данные для бокового положения каждого транспортного средства с течением времени и номер полосы, как показано на этих 3 графиках в изображении и данных примера ниже. > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 Боковое...

8
Категоризация подходов к работе с несбалансированными классами

Каков наилучший способ классификации подходов, разработанных для решения проблемы класса дисбаланса? Эта статья разделяет их на: Предварительная обработка: включает передискретизацию, недостаточную выборку и гибридные методы, Чувствительное к затратам обучение: включает в себя прямые методы и...