Наука о данных

11
Является ли GLM статистической или машины модели обучения?

Я думал, что обобщенная линейная модель (GLM) будет рассматриваться как статистическая модель, но один из моих друзей сказал мне, что некоторые статьи классифицируют ее как технику машинного обучения. Какой из них является истинным (или точнее)? Любое объяснение будет...

11
Техника извлечения признаков - суммирование последовательности данных

Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель. В качестве конкретного...

11
Где я могу скачать историческую рыночную капитализацию и ежедневные данные об обороте акций?

Существует множество источников, которые предоставляют исторические данные о запасах, но они предоставляют только поля OHLC вместе с объемом и скорректированным закрытием. Также несколько источников, которые я нашел, предоставляют наборы рыночной капитализации, но они ограничены акциями США. Yahoo...

11
Fisher Scoring v / s Координатный спуск для MLE в R

Базовая функция R glm()использует баллы Фишера для MLE, в то время как, по- glmnetвидимому, используется метод спуска координат для решения того же уравнения. Спуск по координатам более эффективен по времени, чем оценка Фишера, так как оценка Фишера вычисляет производную матрицу второго порядка в...

11
Создайте двоичный классификатор только с положительными и непомеченными данными

У меня есть 2 набора данных, один с положительными экземплярами того, что я хотел бы обнаружить, и один с немечеными экземплярами. Какие методы я могу использовать? В качестве примера, предположим, что мы хотим понять, обнаруживать спам по электронной почте на основе нескольких структурированных...

11
Работа с кластерами HPC

В моем университете у нас есть вычислительный кластер HPC. Я использую кластер для обучения классификаторов и так далее. Поэтому, обычно для отправки задания в кластер (например, сценарий python scikit-learn) мне нужно написать сценарий Bash, который содержит (среди прочего) такую ​​команду qsub...

11
Реализация Python t-SNE: расхождение Кульбака-Лейблера

t-SNE, как и в [1], работает путем постепенного уменьшения расхождения Кульбака-Лейблера (KL), пока не будет выполнено определенное условие. Создатели t-SNE предлагают использовать дивергенцию KL в качестве критерия производительности для визуализаций: Вы можете сравнить расхождения...

11
Визуализация данных для анализа паттернов (не зависит от языка, но предпочтительнее для R)

Я хочу построить байты из образа диска, чтобы понять в них закономерность. Это в основном академическая задача, так как я почти уверен, что этот шаблон был создан программой тестирования диска, но я все равно хотел бы его перепроектировать. Я уже знаю, что шаблон выровнен с периодичностью 256...

11
Необучаемая функция обучения для NER

Я реализовал систему NER с использованием алгоритма CRF с моими функциями ручной работы, которые дали довольно хорошие результаты. Дело в том, что я использовал множество различных функций, включая POS-теги и леммы. Теперь я хочу сделать один и тот же NER для другого языка. Проблема в том, что я не...

11
Решая систему уравнений с разреженными данными

Я пытаюсь решить систему уравнений, которая имеет 40 независимых переменных (x1, ..., x40) и одну зависимую переменную (у). Общее количество уравнений (количество строк) составляет ~ 300, и я хочу решить для набора из 40 коэффициентов, который минимизирует общую сумму квадратов ошибки между y и...

11
Решения для непрерывной онлайн-идентификации кластеров?

Позвольте мне показать вам пример гипотетического приложения онлайн кластерной: В момент времени n точек 1,2,3,4 выделяются синему кластеру A, а точки b, 5,6,7 выделяются красному кластеру B. В момент времени n + 1 вводится новая точка a, которая назначается синему кластеру A, но также вызывает...

11
Нейронная сеть для мониторинга сервера

Я смотрю на pybrain для принятия сигналов монитора сервера и определения основной причины проблемы. Я доволен тем, обучение его с помощью контролируемого обучения и курирования наборов обучающих данных. Данные структурированы примерно так: Тип сервера A # 1 Тип тревоги 1 Тип тревоги 2 Тип сервера #...

11
Бухгалтерский учет экспериментов и результатов

Я практический исследователь, и мне нравится тестировать жизнеспособные решения, поэтому я стараюсь проводить много экспериментов. Например, если я вычисляю оценку сходства между документами, я мог бы попробовать много мер. Фактически, для каждой меры мне может потребоваться выполнить несколько...

11
Полевые машины факторизации

Кто-нибудь может объяснить, как машины факторизации с учетом специфики поля (FFM) сравниваются со стандартными машинами факторизации (FM)? Стандарт: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf «Полевая информация»:...

11
Отношения между KS, AUROC и Gini

Общая статистика валидации модели, такая как критерий Колмогорова – Смирнова (KS), AUROC и коэффициент Джини , все функционально связаны. Однако мой вопрос касается доказательства того, как все это связано. Мне любопытно, если кто-нибудь может помочь мне доказать эти отношения. Я не смог ничего...

11
Использование кластеризации в обработке текста

Привет, это мой первый вопрос в стеке Data Science. Я хочу создать алгоритм классификации текста. Предположим, у меня есть большой набор текста и статей. Скажем, около 5000 простых текстов. Сначала я использую простую функцию, чтобы определить частоту всех четырех и выше символов слова. Затем я...

11
Какую регрессию использовать для расчета результата выборов в многопартийной системе?

Я хочу сделать прогноз на результат парламентских выборов. Мой результат будет%, который получает каждая сторона. Существует более двух сторон, поэтому логистическая регрессия не является жизнеспособным вариантом. Я мог бы сделать отдельный регресс для каждой партии, но в этом случае результаты...

11
Последствия масштабирования объектов

В настоящее время я использую SVM и масштабирую свои тренировочные возможности до диапазона [0,1]. Сначала я подгоняю / преобразовываю свой тренировочный набор, а затем применяю то же преобразование к своему испытательному набору. Например: ### Configure transformation and apply to training set...

11
Как объединить данные за месяц, день и неделю?

Google Trends возвращает еженедельные данные, поэтому мне нужно найти способ объединить их с моими ежедневными / ежемесячными данными. Пока что я разбил каждую серию на ежедневные данные, например: от: 2013-03-03 - 2013-03-09 37 чтобы: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37...

11
Что происходит, когда мы обучаем линейный SVM нелинейно разделяемым данным?

Что происходит, когда мы обучаем базовую опорную векторную машину (линейное ядро ​​и отсутствие мягкого поля) на нелинейно разделимых данных? Задача оптимизации неосуществима, так что возвращает алгоритм...