Статистика и большие данные

77
Корреляция между номинальной (IV) и непрерывной (DV) переменной

У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными...

77
Как получить симпатичный график результатов кластерного анализа k-средних?

Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...

77
Математик хочет, чтобы эквивалентные знания в степени качества статистики

Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ). У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда...

77
Т-критерий для ненормального, когда N> 50?

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной...

76
Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1...

76
Выбор функции и перекрестная проверка

Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с...

76
Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...

76
Каковы современные, легко используемые альтернативы ступенчатой ​​регрессии?

У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной. Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом...

76
Помогите мне понять опорные векторные машины

Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал...

75
Пожалуйста, объясните парадокс ожидания

Несколько лет назад я разработал детектор излучения, который работает, измеряя интервал между событиями, а не подсчитывая их. Я предполагал, что при измерении несмежных образцов в среднем я буду измерять половину фактического интервала. Однако, когда я тестировал схему с калиброванным источником,...

75
Почему логистическая регрессия не называется логистической классификацией?

Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными...

75
Лучший способ представить случайный лес в публикации?

Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для...

75
Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки

Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с...

74
Примеры для обучения: корреляция не означает причинно-следственную связь

Существует старая поговорка: «Соотношение не означает причинность». Когда я преподаю, я склонен использовать следующие стандартные примеры, чтобы проиллюстрировать этот момент: количество аистов и рождаемость в Дании; количество священников в Америке и алкоголизм; в начале 20-го века было отмечено,...

74
Что такое регуляризация в простом английском?

В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации»,...

74
Зачем использовать градиентный спуск для линейной регрессии, когда доступно математическое решение замкнутой формы?

Я беру онлайн курсы машинного обучения и узнал о градиентном спуске для расчета оптимальных значений в гипотезе. h(x) = B0 + B1X почему нам нужно использовать градиентный спуск, если мы можем легко найти значения по формуле ниже? Это выглядит прямо и легко. но GD нужно несколько итераций, чтобы...

74
Диагностика логистической регрессии

Для линейной регрессии мы можем проверить диагностические графики (графики остатков, графики нормального QQ и т. Д.), Чтобы проверить, не нарушены ли предположения о линейной регрессии. Что касается логистической регрессии, у меня возникают проблемы с поиском ресурсов, которые объясняют, как...