У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными...
У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными...
Если бы вы могли вернуться в прошлое и сказать себе, что в начале своей карьеры в качестве статистика вы прочитаете конкретную книгу, то какой это будет
Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...
Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ). У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда...
Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной...
Как бы вы описали перекрестную проверку для кого-либо, не имеющего опыта анализа
Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1...
Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с...
Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...
«По сути, все модели ошибочны, но некоторые полезны». --- Коробка, Джордж EP; Норман Р. Дрейпер (1987). Эмпирическое моделирование и ответные поверхности, с. 424, Wiley. ISBN 0471810339. В чем именно смысл этой фразы?...
У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной. Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом...
Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал...
Несколько лет назад я разработал детектор излучения, который работает, измеряя интервал между событиями, а не подсчитывая их. Я предполагал, что при измерении несмежных образцов в среднем я буду измерять половину фактического интервала. Однако, когда я тестировал схему с калиброванным источником,...
Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными...
Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для...
Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с...
Существует старая поговорка: «Соотношение не означает причинность». Когда я преподаю, я склонен использовать следующие стандартные примеры, чтобы проиллюстрировать этот момент: количество аистов и рождаемость в Дании; количество священников в Америке и алкоголизм; в начале 20-го века было отмечено,...
В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации»,...
Я беру онлайн курсы машинного обучения и узнал о градиентном спуске для расчета оптимальных значений в гипотезе. h(x) = B0 + B1X почему нам нужно использовать градиентный спуск, если мы можем легко найти значения по формуле ниже? Это выглядит прямо и легко. но GD нужно несколько итераций, чтобы...
Для линейной регрессии мы можем проверить диагностические графики (графики остатков, графики нормального QQ и т. Д.), Чтобы проверить, не нарушены ли предположения о линейной регрессии. Что касается логистической регрессии, у меня возникают проблемы с поиском ресурсов, которые объясняют, как...