Наука о данных

10
Перекрестная проверка: K-кратная и повторная случайная выборка

Интересно, какой тип перекрестной проверки модели выбрать для задачи классификации: K-кратная или случайная суб-выборка (выборка с начальной загрузкой)? Мое лучшее предположение - использовать 2/3 набора данных (который составляет ~ 1000 элементов) для обучения и 1/3 для проверки. В этом случае...

10
Сетевой анализ классических наборов данных

Существует несколько классических наборов данных для задач классификации / регрессии машинного обучения. Наиболее популярными являются: Набор данных Iris Flower ; Титаник Набор Данных ; Motor Trend Cars ; и т.п. Но кто-нибудь знает подобные наборы данных для анализа сетей / теории графов? Более...

10
Как создать оптимизированный список прогулок с учетом координат долготы и широты?

Я работаю над политической кампанией, в которой десятки добровольцев будут проводить промоушены в течение следующих нескольких недель. Учитывая список с именами, адресами и координатами long / lat, какие алгоритмы можно использовать для создания оптимизированного списка...

10
Обработка регулярно растущего набора функций

Я работаю над системой обнаружения мошенничества. В этом поле регулярно появляются новые случаи мошенничества, поэтому новые функции необходимо добавлять в модель на постоянной основе. Интересно, как лучше всего справиться с этим (с точки зрения процесса разработки)? Простое добавление новой...

10
Прогнозирование валютного рынка с помощью нейронных сетей

Я хотел бы использовать ANN для автоматизации торговли валютами, предпочтительно USD / EUR или USD / GBP. Я знаю, что это сложно и, возможно, не так просто. Я уже прочитал несколько статей и провел несколько экспериментов, но без особой удачи. Я хотел бы получить совет от экспертов, чтобы сделать...

10
Прогноз с неатомарными особенностями

Я хотел бы использовать неатомарные данные, как функцию для прогноза. Предположим, у меня есть таблица с этими функциями: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ]...

10
Статистика + Информатика = Наука о данных? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Я хочу стать специалистом по данным . Я изучал прикладную статистику (актуарная наука), поэтому у меня...

10
Как различные статистические методы (регрессия, PCA и т. Д.) Масштабируются в зависимости от размера и размера выборки?

Существует ли известная общая таблица статистических методов, объясняющих, как они масштабируются в зависимости от размера и размера выборки? Например, мой друг сказал мне на днях, что время вычисления простой быстрой сортировки одномерных данных размера n равно n * log (n). Так, например, если мы...

10
Почему несколько типов моделей могут давать почти одинаковые результаты?

Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом...

10
Какие начальные шаги я должен использовать, чтобы понять большие наборы данных, и какие инструменты я должен использовать?

Предостережение: я начинающий, когда дело доходит до машинного обучения, но хочу учиться. У меня большой набор данных, и я пытаюсь найти в нем закономерность. Может быть / не быть корреляции между данными, либо с известными переменными, либо с переменными, которые содержатся в данных, но которые я...

10
Извлечь каноническую строку из списка шумных строк

У меня есть тысячи списков строк, и каждый список имеет около 10 строк. Большинство строк в данном списке очень похожи, хотя некоторые строки (редко) полностью не связаны с другими, а некоторые строки содержат нерелевантные слова. Их можно считать шумными вариациями канонической струны. Я ищу...

10
реализация временной разницы в шахматах

Я занимаюсь разработкой шахматной программы, в которой используется алгоритм обрезки альфа-бета и функция оценки, которая оценивает позиции с использованием следующих функций, а именно: материал, безопасность короля, мобильность, структура пешки и захваченные фигуры и т. Д. ..... Моя функция оценки...

10
Библиотеки для (алгоритмы распространения меток / частое извлечение подграфа) для графов в R

Общее описание проблемы У меня есть график, где некоторые вершины помечены с типом с 3 или 4 возможных значений. Для остальных вершин тип неизвестен. Моя цель - использовать график, чтобы предсказать тип для немаркированных вершин. Возможные рамки Я подозреваю, что это вписывается в общую структуру...

10
Библиотеки для онлайн-машинного обучения

Я ищу пакеты (либо в python, R, либо в отдельном пакете) для онлайн-обучения для прогнозирования биржевых данных. Я нашел и прочитал о Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), который кажется довольно многообещающим, но мне интересно, есть ли какие-либо другие пакеты...

10
Сколько времени занимают классификаторы scikit, чтобы классифицировать?

Я планирую использовать классификатор линейных опорных векторов (SVM) Scikit для классификации текста в корпусе, состоящем из 1 миллиона помеченных документов. Я планирую сделать следующее: когда пользователь вводит какое-либо ключевое слово, классификатор сначала классифицирует его по категории, а...

10
Стохастический градиентный спуск на основе векторных операций?

давайте предположим, что я хочу обучить алгоритм регрессии стохастического градиентного спуска, используя набор данных, который имеет N выборок. Поскольку размер набора данных фиксирован, я буду использовать данные T раз. На каждой итерации или «эпохе» я использую каждую обучающую выборку ровно...

10
Масштабируемый выброс / обнаружение аномалий

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов,...

10
Анализ файла журнала: извлечение информационной части из части значения

Я пытаюсь создать набор данных из нескольких файлов журнала одного из наших продуктов. Различные файлы журналов имеют свой собственный макет и собственный контент; Я успешно сгруппировал их, остался всего один шаг ... Действительно, журнал «Сообщения» - лучшая информация. У меня нет исчерпывающего...

10
Несколько меток в контролируемом алгоритме обучения

У меня есть текстовый корпус с соответствующими темами. Например "A rapper Tupac was shot in LA"и было помечено как ["celebrity", "murder"]. Таким образом, в основном каждый вектор объектов может иметь много меток (не одинаковое количество. Первый вектор объектов может иметь 3 метки, второй 1,...

10
Усиление локально-чувствительного хэша

Я пытаюсь создать хеш, чувствительный к косинусной местности, чтобы найти подходящие пары элементов без необходимости сравнивать каждую возможную пару. У меня это в основном работает, но большинство пар в моих данных, похоже, имеют косинусное сходство в диапазоне от -0,2 до +0,2, поэтому я пытаюсь...