Наука о данных

14
Начинающие математические книги для машинного обучения

Я инженер по компьютерным наукам, не обладаю знаниями в области статистики или математики. Я изучаю книгу « Машинное обучение Python» Рашки и Миржалили, но когда я попытался понять математику машинного обучения, я не смог понять замечательную книгу, которую мой друг предлагает мне «Элементы...

14
Деревья решений: листовое (лучшее-первое) и горизонтальное дерево

Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я...

14
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?

Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? Я бы, по крайней мере , ожидал...

14
Изменение размера изображения и отступ для CNN

Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения...

14
Как добавить функции не-изображения вдоль боковых изображений в качестве входных данных CNN

Я тренирую сверточную нейронную сеть для классификации изображений в условиях тумана (3 класса). Однако для каждого из 150 000 изображений у меня также есть четыре метеорологические переменные, которые могут помочь в прогнозировании классов изображений. Мне было интересно, как я могу добавить...

14
Могут ли деревья с градиентным усилением соответствовать любой функции?

Для нейронных сетей мы имеем универсальную теорему аппроксимации, которая утверждает, что нейронные сети могут аппроксимировать любую непрерывную функцию на компактном подмножестве .рNрNR^n Есть ли аналогичный результат для деревьев с градиентным усилением? Это кажется разумным, так как вы можете...

14
Что означает вывод функции model.predict из Keras?

Я построил модель LSTM для прогнозирования повторяющихся вопросов в официальном наборе данных Quora. Метки теста - 0 или 1. 1 означает, что пара вопросов дублируется. После построения модели с использованием model.fit, я тестирую модель, используя model.predictданные теста. Вывод представляет собой...

13
Когда реляционная база данных имеет лучшую производительность, чем не реляционная

Когда реляционная база данных, такая как MySQL, имеет лучшую производительность, чем не реляционная, как MongoDB? На днях я видел вопрос о Quora: почему Quora по-прежнему использует MySQL в качестве бэкэнда и что их производительность по-прежнему...

13
Есть ли какие-либо API для сканирования рефератов?

Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных? Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения». Кто-нибудь знает API, который может дать мне решение? Я...

13
Пример больших данных или пример использования

Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается Какие данные эти компании использовали. Каков был размер данных Какие инструменты технологий они использовали для обработки данных В чем заключалась проблема, с...

13
Лучший способ классифицировать наборы данных со смешанными типами атрибутов

Я хотел бы знать, каков наилучший способ классификации набора данных, состоящего из смешанных типов атрибутов, например, текстовых и числовых. Я знаю, что могу преобразовать текст в булеву, но словарь разнообразен и данные становятся слишком редкими. Я также пытался классифицировать типы атрибутов...

13
Наборы данных с пониманием лучших практик

Я магистрант CS в области интеллектуального анализа данных. Мой руководитель однажды сказал мне, что перед тем, как запустить какой-либо классификатор или сделать что-либо с набором данных, я должен полностью понять данные и убедиться, что данные чистые и правильные. Мои вопросы: Как лучше всего...

13
Анализ результатов A / B-теста, которые обычно не распределяются, с использованием независимого t-теста

У меня есть набор результатов теста A / B (одна контрольная группа, одна группа объектов), которые не соответствуют нормальному распределению. На самом деле распределение больше напоминает распределение Ландау. Я считаю, что независимый критерий Стьюдента требует, чтобы образцы были, по крайней...

13
Какие особенности обычно используются из деревьев разбора в процессе классификации в НЛП?

Я изучаю различные типы структур дерева разбора. Двумя широко известными структурами дерева разбора являются: а) дерево разбора на основе постоянных и б) основанные на зависимости структуры дерева разбора. Я могу использовать генерацию обоих типов структур дерева разбора с помощью пакета Stanford...

13
Изучение алгоритмов машинного обучения: глубина понимания против количества алгоритмов

Недавно я познакомился с областью науки о данных (прошло около 6 месяцев), и я начал свой путь с курса по машинному обучению Эндрю Нга и поста, который начал работать над специализацией по науке данных в JHU. Что касается практического применения, я работал над созданием прогностической модели,...

13
Он-лайн случайные леса, добавив больше деревьев решений

Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных? Например, у нас есть 10K образцов и...

13
Этическое и экономичное масштабирование данных

Немногие вещи в жизни доставляют мне удовольствие, например, извлечение структурированных и неструктурированных данных из Интернета и использование их в моих моделях. Например, Data Science Toolkit (или RDSTKдля программистов на R) позволяет мне получать много хороших данных, основанных на...

13
Визуализация глубокого обучения нейронной сети

Я пытаюсь найти эквивалент диаграмм Хинтона для многослойных сетей, чтобы построить вес во время обучения. Обученная сеть в некоторой степени похожа на Deep SRN, т. Е. Имеет большое количество матриц с несколькими весами, что делает одновременное построение нескольких диаграмм Хинтона визуально...

13
Neo4j против OrientDB против Титана

Я работаю над научно-исследовательским проектом, связанным с анализом социальных отношений, и мне нужно хранить данные в некоторых графовых базах данных. Изначально я выбрал Neo4j в качестве базы данных. Но швы Neo4j плохо масштабируются. Альтернатива, которую я обнаружил, это Titan и oriebtDB. Я...