Наука о данных - страница 18

14

Начинающие математические книги для машинного обучения

Я инженер по компьютерным наукам, не обладаю знаниями в области статистики или математики. Я изучаю книгу « Машинное обучение Python» Рашки и Миржалили, но когда я попытался понять математику машинного обучения, я не смог понять замечательную книгу, которую мой друг предлагает мне «Элементы...

14

Деревья решений: листовое (лучшее-первое) и горизонтальное дерево

Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я...

decision-trees xgboost

14

Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?

Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? Я бы, по крайней мере , ожидал...

machine-learning deep-learning dataset convnet image-classification

14

Изменение размера изображения и отступ для CNN

Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения...

machine-learning image-classification preprocessing image-recognition

14

Как добавить функции не-изображения вдоль боковых изображений в качестве входных данных CNN

Я тренирую сверточную нейронную сеть для классификации изображений в условиях тумана (3 класса). Однако для каждого из 150 000 изображений у меня также есть четыре метеорологические переменные, которые могут помочь в прогнозировании классов изображений. Мне было интересно, как я могу добавить...

machine-learning neural-network deep-learning tensorflow cnn

14

Могут ли деревья с градиентным усилением соответствовать любой функции?

Для нейронных сетей мы имеем универсальную теорему аппроксимации, которая утверждает, что нейронные сети могут аппроксимировать любую непрерывную функцию на компактном подмножестве .рNрNR^n Есть ли аналогичный результат для деревьев с градиентным усилением? Это кажется разумным, так как вы можете...

decision-trees

14

Что означает вывод функции model.predict из Keras?

Я построил модель LSTM для прогнозирования повторяющихся вопросов в официальном наборе данных Quora. Метки теста - 0 или 1. 1 означает, что пара вопросов дублируется. После построения модели с использованием model.fit, я тестирую модель, используя model.predictданные теста. Вывод представляет собой...

machine-learning python neural-network keras lstm

13

Когда реляционная база данных имеет лучшую производительность, чем не реляционная

Когда реляционная база данных, такая как MySQL, имеет лучшую производительность, чем не реляционная, как MongoDB? На днях я видел вопрос о Quora: почему Quora по-прежнему использует MySQL в качестве бэкэнда и что их производительность по-прежнему...

bigdata performance databases nosql

13

Есть ли какие-либо API для сканирования рефератов?

Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных? Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения». Кто-нибудь знает API, который может дать мне решение? Я...

data-mining machine-learning

13

Пример больших данных или пример использования

Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается Какие данные эти компании использовали. Каков был размер данных Какие инструменты технологий они использовали для обработки данных В чем заключалась проблема, с...

data-mining bigdata usecase

13

Лучший способ классифицировать наборы данных со смешанными типами атрибутов

Я хотел бы знать, каков наилучший способ классификации набора данных, состоящего из смешанных типов атрибутов, например, текстовых и числовых. Я знаю, что могу преобразовать текст в булеву, но словарь разнообразен и данные становятся слишком редкими. Я также пытался классифицировать типы атрибутов...

machine-learning classification

13

Наборы данных с пониманием лучших практик

Я магистрант CS в области интеллектуального анализа данных. Мой руководитель однажды сказал мне, что перед тем, как запустить какой-либо классификатор или сделать что-либо с набором данных, я должен полностью понять данные и убедиться, что данные чистые и правильные. Мои вопросы: Как лучше всего...

statistics dataset

13

Анализ результатов A / B-теста, которые обычно не распределяются, с использованием независимого t-теста

У меня есть набор результатов теста A / B (одна контрольная группа, одна группа объектов), которые не соответствуют нормальному распределению. На самом деле распределение больше напоминает распределение Ландау. Я считаю, что независимый критерий Стьюдента требует, чтобы образцы были, по крайней...

dataset statistics ab-test

13

Какие особенности обычно используются из деревьев разбора в процессе классификации в НЛП?

Я изучаю различные типы структур дерева разбора. Двумя широко известными структурами дерева разбора являются: а) дерево разбора на основе постоянных и б) основанные на зависимости структуры дерева разбора. Я могу использовать генерацию обоих типов структур дерева разбора с помощью пакета Stanford...

machine-learning nlp feature-selection feature-extraction

13

Изучение алгоритмов машинного обучения: глубина понимания против количества алгоритмов

Недавно я познакомился с областью науки о данных (прошло около 6 месяцев), и я начал свой путь с курса по машинному обучению Эндрю Нга и поста, который начал работать над специализацией по науке данных в JHU. Что касается практического применения, я работал над созданием прогностической модели,...

machine-learning

13

Он-лайн случайные леса, добавив больше деревьев решений

Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных? Например, у нас есть 10K образцов и...

random-forest online-learning

13

Этическое и экономичное масштабирование данных

Немногие вещи в жизни доставляют мне удовольствие, например, извлечение структурированных и неструктурированных данных из Интернета и использование их в моих моделях. Например, Data Science Toolkit (или RDSTKдля программистов на R) позволяет мне получать много хороших данных, основанных на...

text-mining scraping

13

Визуализация глубокого обучения нейронной сети

Я пытаюсь найти эквивалент диаграмм Хинтона для многослойных сетей, чтобы построить вес во время обучения. Обученная сеть в некоторой степени похожа на Deep SRN, т. Е. Имеет большое количество матриц с несколькими весами, что делает одновременное построение нескольких диаграмм Хинтона визуально...

machine-learning neural-network visualization deep-learning

13

Neo4j против OrientDB против Титана

Я работаю над научно-исследовательским проектом, связанным с анализом социальных отношений, и мне нужно хранить данные в некоторых графовых базах данных. Изначально я выбрал Neo4j в качестве базы данных. Но швы Neo4j плохо масштабируются. Альтернатива, которую я обнаружил, это Titan и oriebtDB. Я...

data-mining graphs databases social-network-analysis

13

В чем разница между генерацией и извлечением объектов?

Кто-нибудь может сказать мне, какова цель создания функции? и зачем обогащать пространство признаков перед классификацией изображения? Это необходимый шаг? Есть ли способ обогатить пространство...

machine-learning classification