Вопросы с тегом «large-data»

15
Хороший способ показать много данных в графическом виде

Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения...

15
Как я могу улучшить свой анализ влияния репутации на голосование?

Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике. Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и...

14
Как моделировать большие продольные данные?

Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 мы можем предположить случайный перехват или наклон для разных людей. Однако вопрос, который я...

14
Доверительные интервалы, когда размер выборки очень большой

Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему. Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я...

13
Может ли опорная векторная машина использоваться в больших данных?

Имея ограниченные знания о SVM, он подходит для короткой и полной матрицы данных (много функций и не слишком много экземпляров), но не для больших данных.ИксXX Я понимаю, что одной из причин является то, что матрица ядра - это матрица n × n, где n - количество экземпляров в данных. Если мы скажем,...

13
Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому...

13
Почему градиентный спуск неэффективен для большого набора данных?

Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным?...

13
Как запустить линейную регрессию в параллельном / распределенном режиме для настройки больших данных?

Я работаю над очень большой проблемой линейной регрессии, когда размер данных настолько велик, что их нужно хранить на кластере машин. Он будет слишком большим, чтобы объединить все образцы в память одного компьютера (даже диска). Чтобы выполнить регрессию этих данных, я думаю о параллельном...

12
Проверка гипотез с большими данными

Как вы выполняете проверки гипотез с большими данными? Я написал следующий скрипт MATLAB, чтобы подчеркнуть мою путаницу. Все, что он делает, это генерирует два случайных ряда и запускает простую линейную регрессию одной переменной с другой. Он выполняет эту регрессию несколько раз, используя...

12
Пригодность для очень больших размеров выборки

Я собираю очень большие выборки (> 1 000 000) категориальных данных каждый день и хочу, чтобы данные выглядели «существенно» по-разному в разные дни, чтобы обнаружить ошибки в сборе данных. Я подумал, что для этого пригодится тест на пригодность (в частности, G-тест). Ожидаемое распределение...

12
Проверка большого набора данных на нормальность - как и насколько это надежно?

Я изучаю часть моего набора данных, содержащую 46840 двойных значений в диапазоне от 1 до 1690, сгруппированных в две группы. Чтобы проанализировать различия между этими группами, я начал с изучения распределения значений, чтобы выбрать правильный тест. Следуя руководству по тестированию на...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

11
Обработка больших наборов данных в R - руководства, лучшие практики и т. Д.

Я R noob, который должен выполнять различные виды анализа больших наборов данных в R. Поэтому, просматривая этот сайт и другие места, мне показалось, что здесь есть много эзотерических и менее известных проблем, таких как какой пакет использовать, когда, какие преобразования (не) применяются к...

11
Когда я должен прекратить искать модель?

Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015). Цена / день Это в день на один год. У меня это по часам на 5 лет. Пример погоды 3Dscatterplot, в кельвинах, на...

10
Возможна ли крупномасштабная PCA?

Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная...

10
Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности?

Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности? На мой взгляд, ответ - нет, поскольку мы можем точно рассчитать истинные значения параметров. Но тогда, какова максимальная доля данных от первоначального населения, которая...

10
Сравнение вложенных бинарных моделей логистической регрессии, когда большое

Чтобы лучше задать мой вопрос, я предоставил некоторые из выводов как из 16 переменных моделей ( fit), так и из 17 переменных моделей ( fit2) ниже (все предикторные переменные в этих моделях являются непрерывными, где единственное различие между этими моделями состоит в том, fitчто содержит...

10
Подходит при обучении из огромных наборов данных?

По сути, есть два распространенных способа обучения на огромных наборах данных (когда вы сталкиваетесь с ограничениями времени / пространства): Обман :) - используйте только «управляемое» подмножество для обучения. Потеря точности может быть незначительной из-за закона убывающей отдачи -...

10
Как просматривать данные больших временных рядов в интерактивном режиме?

Я часто имею дело с разумным размером данных временных рядов, 50-200 миллионов удваивается с соответствующими временными метками и хотел бы динамически их визуализировать. Существует ли существующее программное обеспечение для этого? Как насчет библиотек и форматов данных? Zoom-кеш - один из...

10
Гауссовская регрессия процесса для наборов данных больших размеров

Просто хотел посмотреть, есть ли у кого-нибудь опыт применения Гауссовой регрессии процессов (GPR) к многомерным наборам данных. Я изучаю некоторые из различных методов разреженного георадара (например, разреженных псевдо-входов георадара), чтобы увидеть, что может работать для наборов данных...