Вопросы с тегом «r»

50
Какую книгу рекомендуется начинать изучать статистику одновременно с использованием R?

Книги для изучения статистики с использованием R Какую именно книгу я ищу. То, что я ищу, это книга, которая обучает вас статистике, используя R, чтобы дать вам практический опыт и, таким образом, в конечном итоге помогает вам изучать R вместе. Я видел на Амазонке много книг, которые пытаются это...

49
Бутстрап против Джекниф

Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож...

49
Вычисление значения P вручную из t-значения в t-тесте

У меня есть образец набора данных с 31 значениями. Я выполнил двусторонний t-тест, используя R, чтобы проверить, равно ли истинное среднее значение 10: t.test(x=data, mu=10, conf.level=0.95) Выход: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95...

49
Время вычисления случайного леса в R

Я использую пакет party в R с 10 000 строк и 34 функциями, а некоторые факторные функции имеют более 300 уровней. Время вычислений слишком велико. (Это заняло 3 часа и еще не закончено.) Я хочу знать, какие элементы оказывают большое влияние на время вычислений случайного леса. Есть ли факторы со...

48
Интуиция о расхождении Кульбака-Лейблера (КЛ)

Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным,...

48
В чем разница между NaN и NA?

Я хотел бы знать, почему некоторые языки, такие как R, имеют как NA, так и NaN. В чем различия или они одинаково одинаковы? Действительно ли нужно иметь

48
R - QQPlot: как посмотреть, нормально ли распределяются данные

Я построил это после теста на нормальность Шапиро-Вилка. Тест показал, что вполне вероятно, что население нормально распределено. Однако как увидеть это «поведение» на этом сюжете? ОБНОВИТЬ Простая гистограмма данных: ОБНОВИТЬ Тест Шапиро-Вилка говорит:...

47
Как правильно использовать корреляцию Пирсона с временными рядами

У меня есть 2 временных ряда (оба гладких), которые я хотел бы взаимно коррелировать, чтобы увидеть, насколько они коррелированы. Я намерен использовать коэффициент корреляции Пирсона. Это уместно? Мой второй вопрос - я могу выбрать 2 временных ряда так, как мне нравится. т.е. я могу выбрать,...

47
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?

Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я...

47
Как сделать выбор поднабора логистической регрессии?

Я подгоняю биномиальное семейство glm в R, и у меня есть целая группа объясняющих переменных, и мне нужно найти лучшее (R-квадрат в качестве меры - это хорошо). Если не считать сценария для циклического перебора различных комбинаций объясняющих переменных и последующей записи, которая дает...

47
Можно ли выполнять кластеризацию временных рядов на основе формы кривой?

У меня есть данные о продажах для ряда торговых точек, и я хочу классифицировать их в зависимости от формы их кривых с течением времени. Данные выглядят примерно так (но, очевидно, не случайны и содержат некоторые пропущенные данные): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){...

47
С чего начать со статистики для опытного разработчика

В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...) Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка...

47
Первые R пакеты исходного кода для изучения при подготовке к написанию собственного пакета

Я планирую начать писать R пакетов. Я подумал, что было бы хорошо изучить исходный код существующих пакетов, чтобы изучить правила построения пакетов. Мои критерии для хороших пакетов для изучения: Простые статистические / технические идеи : цель состоит в том, чтобы узнать о механике конструкции...

46
Как рассчитать псевдо- из логистической регрессии R?

Отчет Кристофера Мэннинга по логистической регрессии в R показывает логистическую регрессию в R следующим образом: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Некоторый вывод: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family...

46
KL расхождение между двумя многомерными гауссианами

У меня проблемы с выводом формулы дивергенции KL, предполагающей два многомерных нормальных распределения. Я сделал одномерный случай довольно легко. Тем не менее, прошло довольно много времени с тех пор, как я взял статистику по математике, поэтому у меня возникли некоторые проблемы с...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

46
Являются ли остатки «прогнозируемыми минус фактическими» или «фактическими минус прогнозируемыми»

Я видел, что «остатки» по-разному определяются как «прогнозируемые минус фактические значения» или «фактические минус прогнозируемые значения». В целях иллюстрации, чтобы показать, что обе формулы широко используются, сравните следующие результаты веб-поиска: остаточный «прогнозируемый минус...

46
В чем разница между оценкой и прогнозом?

Например, у меня есть данные о прошлых потерях, и я рассчитываю экстремальные квантили (величина риска или вероятная максимальная потеря). Полученные результаты предназначены для оценки потерь или их прогнозирования? Где можно провести черту? Я...

46
Интуиция позади, почему парадокс Штейна применим только в измерениях

Пример Стейна показывает, что оценка максимального правдоподобия nnn нормально распределенных переменных со средними значениями μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n и дисперсиями 111 недопустима (при функции квадрата потерь) тогда и только тогда, когда n≥3n≥3n\ge 3 . Для ясного доказательства см....

46
Понимание регрессий - роль модели

Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры? Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и...