Вопросы с тегом «large-data»

15

Хороший способ показать много данных в графическом виде

Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения...

r data-visualization large-data eda

15

Как я могу улучшить свой анализ влияния репутации на голосование?

Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике. Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и...

data-visualization large-data fixed-effects-model

14

Как моделировать большие продольные данные?

Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 мы можем предположить случайный перехват или наклон для разных людей. Однако вопрос, который я...

machine-learning data-transformation random-forest panel-data large-data

14

Доверительные интервалы, когда размер выборки очень большой

Мой вопрос можно перефразировать как «как оценить ошибку выборки с использованием больших данных», особенно для публикации в журнале. Вот пример, чтобы проиллюстрировать проблему. Из очень большого набора данных (> 100 000 уникальных пациентов и их назначенных препаратов из 100 больниц) я...

confidence-interval large-data reporting

13

Может ли опорная векторная машина использоваться в больших данных?

Имея ограниченные знания о SVM, он подходит для короткой и полной матрицы данных (много функций и не слишком много экземпляров), но не для больших данных.ИксXX Я понимаю, что одной из причин является то, что матрица ядра - это матрица n × n, где n - количество экземпляров в данных. Если мы скажем,...

machine-learning svm large-data

13

Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому...

r clustering sampling large-data

13

Почему градиентный спуск неэффективен для большого набора данных?

Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным?...

machine-learning gradient-descent large-data

13

Как запустить линейную регрессию в параллельном / распределенном режиме для настройки больших данных?

Я работаю над очень большой проблемой линейной регрессии, когда размер данных настолько велик, что их нужно хранить на кластере машин. Он будет слишком большим, чтобы объединить все образцы в память одного компьютера (даже диска). Чтобы выполнить регрессию этих данных, я думаю о параллельном...

regression linear large-data

12

Проверка гипотез с большими данными

Как вы выполняете проверки гипотез с большими данными? Я написал следующий скрипт MATLAB, чтобы подчеркнуть мою путаницу. Все, что он делает, это генерирует два случайных ряда и запускает простую линейную регрессию одной переменной с другой. Он выполняет эту регрессию несколько раз, используя...

hypothesis-testing large-data

12

Пригодность для очень больших размеров выборки

Я собираю очень большие выборки (> 1 000 000) категориальных данных каждый день и хочу, чтобы данные выглядели «существенно» по-разному в разные дни, чтобы обнаружить ошибки в сборе данных. Я подумал, что для этого пригодится тест на пригодность (в частности, G-тест). Ожидаемое распределение...

goodness-of-fit large-data

12

Проверка большого набора данных на нормальность - как и насколько это надежно?

Я изучаю часть моего набора данных, содержащую 46840 двойных значений в диапазоне от 1 до 1690, сгруппированных в две группы. Чтобы проанализировать различия между этими группами, я начал с изучения распределения значений, чтобы выбрать правильный тест. Следуя руководству по тестированию на...

r normal-distribution normality-assumption large-data

12

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

11

Обработка больших наборов данных в R - руководства, лучшие практики и т. Д.

Я R noob, который должен выполнять различные виды анализа больших наборов данных в R. Поэтому, просматривая этот сайт и другие места, мне показалось, что здесь есть много эзотерических и менее известных проблем, таких как какой пакет использовать, когда, какие преобразования (не) применяются к...

r large-data

11

Когда я должен прекратить искать модель?

Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015). Цена / день Это в день на один год. У меня это по часам на 5 лет. Пример погоды 3Dscatterplot, в кельвинах, на...

time-series forecasting predictive-models modeling large-data

10

Возможна ли крупномасштабная PCA?

Классический метод анализа основных компонентов (PCA) состоит в том, чтобы сделать это на матрице входных данных, столбцы которой имеют нулевое среднее значение (тогда PCA может «максимизировать дисперсию»). Это может быть легко достигнуто путем центрирования колонн. Тем не менее, когда входная...

pca algorithms dimensionality-reduction large-data sparse

10

Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности?

Имеет ли смысл рассчитывать доверительные интервалы и проверять гипотезы, когда доступны данные по всей совокупности? На мой взгляд, ответ - нет, поскольку мы можем точно рассчитать истинные значения параметров. Но тогда, какова максимальная доля данных от первоначального населения, которая...

hypothesis-testing confidence-interval sample-size large-data population

10

Сравнение вложенных бинарных моделей логистической регрессии, когда большое

Чтобы лучше задать мой вопрос, я предоставил некоторые из выводов как из 16 переменных моделей ( fit), так и из 17 переменных моделей ( fit2) ниже (все предикторные переменные в этих моделях являются непрерывными, где единственное различие между этими моделями состоит в том, fitчто содержит...

r regression logistic model-selection large-data

10

Подходит при обучении из огромных наборов данных?

По сути, есть два распространенных способа обучения на огромных наборах данных (когда вы сталкиваетесь с ограничениями времени / пространства): Обман :) - используйте только «управляемое» подмножество для обучения. Потеря точности может быть незначительной из-за закона убывающей отдачи -...

machine-learning large-data model-evaluation train

10

Как просматривать данные больших временных рядов в интерактивном режиме?

Я часто имею дело с разумным размером данных временных рядов, 50-200 миллионов удваивается с соответствующими временными метками и хотел бы динамически их визуализировать. Существует ли существующее программное обеспечение для этого? Как насчет библиотек и форматов данных? Zoom-кеш - один из...

time-series data-visualization large-data interactive-visualization

10

Гауссовская регрессия процесса для наборов данных больших размеров

Просто хотел посмотреть, есть ли у кого-нибудь опыт применения Гауссовой регрессии процессов (GPR) к многомерным наборам данных. Я изучаю некоторые из различных методов разреженного георадара (например, разреженных псевдо-входов георадара), чтобы увидеть, что может работать для наборов данных...

machine-learning predictive-models large-data gaussian-process