Вопросы с тегом «large-data»

10
K-означает: сколько итераций в практических ситуациях?

У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец?...

10
Работа с очень большими наборами данных временных рядов

У меня есть доступ к очень большому набору данных. Данные взяты из записей MEG людей, слушающих музыкальные отрывки из одного из четырех жанров. Данные следующие: 6 предметов 3 экспериментальных повторения (эпохи) 120 испытаний за эпоху 8 секунд данных на испытание при 500 Гц (= 4000 отсчетов) по...

9
Какие алгоритмы машинного обучения можно масштабировать с помощью hadoop / map-Reduce

Масштабируемые алгоритмы машинного обучения в наши дни кажутся шумом. Каждая компания обрабатывает только большие данные . Существует ли учебник, в котором обсуждается, какие алгоритмы машинного обучения можно масштабировать с помощью параллельных архитектур, таких как Map-Reduce, а какие - нет?...

9
Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей

Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot)...

9
Масштабируемое уменьшение размера

Учитывая постоянное число функций, t-SNE Барнса-Хата имеет сложность , случайные проекции и PCA имеют сложность что делает их «доступными» для очень больших наборов данных.O ( n logн )О(Nжурнал⁡N)O(n\log n)O ( n )О(N)O(n) С другой стороны, методы, основанные на многомерном масштабировании, имеют...

9
Компактная кластеризация

Большинство алгоритмов кластеризации, которые я видел, начинаются с создания расстояний между каждым из всех точек, что становится проблематичным для больших наборов данных. Есть тот, кто этого не делает? Или это какой-то частичный / приблизительный / ступенчатый подход? Какой алгоритм / реализация...

9
Как рассчитать меру точности на основе RMSE? Мой большой набор данных нормально распределен?

У меня есть несколько наборов данных порядка тысяч точек. Значения в каждом наборе данных: X, Y, Z, относящиеся к координате в пространстве. Z-значение представляет собой разницу высот в координатной паре (x, y). Как правило, в моей области ГИС ошибка превышения указывается в RMSE путем вычитания...

9
Как быстро выбрать важные переменные из очень большого набора данных?

У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить...

8
Могу ли я подвыбор большого набора данных на каждой итерации MCMC?

Проблема: я хочу выполнить выборку Гиббса, чтобы вывести некоторую апостериорную часть по большому набору данных. К сожалению, моя модель не очень проста, поэтому выборка слишком медленная. Я бы рассмотрел вариационные или параллельные подходы, но прежде чем идти так далеко ... Вопрос: Я хотел бы...