Предположим, у меня есть две группы данных, помеченные A и B (каждая из которых содержит, например, 200 образцов и 1 особенность), и я хочу знать, отличаются ли они. Я мог бы:
а) выполнить статистический тест (например, t-тест), чтобы увидеть, отличаются ли они статистически.
б) использовать контролируемое машинное обучение (например, классификатор опорных векторов или классификатор случайных лесов). Я могу обучить это на части моих данных и проверить это на остальных. Если после этого алгоритм машинного обучения правильно классифицирует остальные, я могу быть уверен, что выборки дифференцируемы.
c) использовать неконтролируемый алгоритм (например, K-Means) и дать ему разделить все данные на две выборки. Затем я могу проверить, соответствуют ли эти два найденных образца моим ярлыкам А и В.
Мои вопросы:
- Как эти три различных способа перекрываются / исключают?
- Б) и в) полезны для каких-либо научных аргументов?
- Как я могу получить «значимость» для разницы между образцами A и B из методов b) и c)?
- Что изменится, если данные будут иметь несколько функций, а не одну функцию?
- Что произойдет, если они содержат различное количество образцов, например, 100 против 300?
Ответы:
Отличный вопрос Все может быть хорошим или плохим, полезным или нет, в зависимости от ваших целей (и, возможно, от характера вашей ситуации). По большей части эти методы предназначены для достижения различных целей.
Имея это в виду, давайте ответим на ваши вопросы:
источник
Не собираюсь заниматься кластеризацией, потому что она была рассмотрена в других ответах, но:
В общем, задача проверки ли двух образцов различны по значению , как известно , два образца тестирования .
Возможно, было бы легче подумать о некоторых из этих проблем, если вы построите тест с двумя выборками из классификатора, например, как недавно предложили Lopez-Paz и Oquab (2017) . Процедура выглядит следующим образом:
Изучив изученный классификатор, вы также сможете интерпретировать различия между распределениями полусмысленным образом. Изменяя семейство классификаторов, которые вы рассматриваете, вы также можете помочь тесту найти определенные виды различий.
Обратите внимание, что важно разделить тест на поезд: в противном случае классификатор, который только что запомнил свои входные данные, всегда имел бы идеальную различимость. Увеличение доли баллов в обучающем наборе дает больше данных для изучения хорошего классификатора, но дает меньше возможностей быть уверенным в том, что точность классификации действительно отличается от случайной. Этот компромисс будет варьироваться в зависимости от проблемы и семейства классификаторов и пока еще недостаточно понят.
Лопес-Пас и Окуаб показали хорошие эмпирические показатели этого подхода по нескольким проблемам. Рамдас и соавт. (2016) дополнительно показали, что теоретически близкородственный подход является оптимальным по скорости для одной конкретной простой задачи. «Правильная» вещь, которую нужно сделать в этой настройке, является областью активного исследования, но этот подход, по крайней мере, разумен во многих ситуациях, если вы хотите немного большей гибкости и интерпретации, чем просто применение стандартного стандартного теста.
источник
Только подход (а) служит для проверки гипотезы.
В случае использования контролируемых алгоритмов машинного обучения (b) они не могут ни доказать, ни опровергнуть гипотезу об удаленности групп. Если алгоритм машинного обучения не классифицирует группы должным образом, это может произойти из-за того, что вы использовали «неправильный» алгоритм для своей задачи или недостаточно настроили его и т. Д. С другой стороны, вы можете «замучить» полностью «случайные» данные долго Достаточно, чтобы произвести подходящую модель, которая делает хорошие прогнозы. Еще одна проблема заключается в том, когда и как вы узнаете, что алгоритм делает «хорошие» прогнозы? Почти никогда вы не будете стремиться к 100% точности классификации, поэтому, когда вы узнаете, что результаты классификации что-то доказывают?
Алгоритмы кластеризации (с) не предназначены для контролируемого обучения. Они не нацелены на воссоздание меток, а на группирование ваших данных по сходству. Теперь результаты зависят от того, какой алгоритм вы используете, и какое сходство вы ищете. Ваши данные могут иметь различного рода сходства, вы можете искать различия между мальчиками и девочками, но алгоритм может вместо этого найти группы бедных и богатых детей, или умных и менее умных, правых и левшей и т. Д. группировка, которую вы намеревались, не доказывает, что группировка не имеет смысла, но только то, что она нашла другую «значимую» группировку. Как и в предыдущем случае, результаты могут зависеть от используемого алгоритма и параметров. Подойдет ли вам, если один из десяти алгоритмов / настроек найдет «ваш» этикетки? Что если бы это был один из ста? Как долго вы будете искать, прежде чем остановиться? Обратите внимание, что при использовании машинного обучения в подавляющем большинстве случаев вы не остановитесь после использования одного алгоритма с настройками по умолчанию, и результат может зависеть от процедуры, которую вы использовали.
источник
а) только отвечает на вопрос, отличается ли распределение, но не как их различить. б) также найдет наилучшее значение для дифференциации двух распределений. c) будет работать, если два распределения имеют некоторые специфические свойства. Например, он будет работать с нормальным распределением, но не с некоторыми двумя модальными распределениями, потому что метод может дифференцировать два режима одной и той же группы вместо двух разных групп.
в) бесполезен для научных аргументов из-за двух модальных распределений. б) может быть использован для дифференциации двух распределений, потому что вы можете рассчитать значение (см. 3.) Хотя я никогда не встречал его.
По самозагрузке. Вы рассчитываете модель на основе случайных подвыборок 1000 раз. Вы получаете оценку, например, минимальную сумму ошибок альфа и бета. Вы сортируете счет по возрастанию. Для 5% уверенности вы выбираете 950-е значение. Если это значение меньше 50% (для равного количества баллов для групп А и В), то с 95% -ной уверенностью можно игнорировать нулевую гипотезу о том, что распределения одинаковы. Проблема в том, что если оба распределения нормальны, имеют одинаковое среднее значение, но имеют разные вариации, то вы не сможете понять, что они различаются по методикам ML. С другой стороны, вы можете найти тест вариации, который сможет различить два распределения. И может быть наоборот, что ML будет сильнее, чем статистический тест, и сможет различать распределения.
Когда у вас есть только одна особенность в ML, вам нужно найти только одно значение, чтобы различать распределения. С двумя особенностями граница может быть синусом, а в многомерном пространстве это может быть действительно странно. Так что найти правильную границу будет намного сложнее. С другой стороны, дополнительные функции приносят дополнительную информацию. Так что это, как правило, позволит легче различать два распределения. Если обе переменные нормально распределены, то граница - это линия.
Меньшие выборки могут вести себя ненормально, потому что Центральная Предельная Теорема не может быть применена. Большая выборка начинает вести себя более нормально, потому что начинает работать Центральная предельная теорема. Например, среднее значение обеих групп будет почти нормально распределено, если выборка достаточно велика. Но обычно это не 100 против 300, а 10 наблюдений против 1000 наблюдений. Таким образом, согласно этому сайту t-критерий для разности средних значений будет работать независимо от распределения, если число наблюдений больше 40 и без выбросов.
источник
Статистическое тестирование предназначено для того, чтобы сделать вывод из данных, оно показывает, как все связано. Результатом является то, что имеет значение в реальном мире. Например, как курение связано с раком легких, как с точки зрения направления, так и величины. Это все еще не говорит вам, почему вещи произошли. Чтобы ответить, почему что-то произошло, нам нужно также рассмотреть взаимосвязь с другими переменными и внести соответствующие коррективы (см. Pearl, J. (2003). ПРИЧИНА: МОДЕЛИ, ПРИЧИНЫ И ВЛИЯНИЕ).
Контролируемое обучение предназначено для прогнозирования, оно говорит вам, что произойдет. Например, учитывая статус курения человека, мы можем предсказать, будет ли у него рак легких. В простых случаях он по-прежнему говорит вам «как», например, глядя на предельное состояние курения, идентифицированное алгоритмом. Но более сложные модели труднее или невозможно интерпретировать (глубокое обучение / повышение с большим количеством функций).
Обучение без присмотра часто используется для облегчения вышеупомянутых двух.
Когда количество функций / переменных становится больше, разница между статистическим тестированием и контролируемым обучением становится более существенной. Статистическое тестирование может не обязательно выиграть от этого, это зависит, например, от того, хотите ли вы сделать причинный вывод, контролируя другие факторы или выявляя неоднородность в ассоциациях, как упомянуто выше. Обучение под наблюдением будет работать лучше, если функции будут актуальны, и оно станет больше похожим на черный ящик.
Когда количество выборок увеличивается, мы можем получить более точные результаты для статистического тестирования, более точные результаты для обучения под наблюдением и более надежные результаты для обучения без присмотра. Но это зависит от качества данных. Данные плохого качества могут привести к смещению или шуму результатов.
Иногда мы хотим знать, «как» и «почему», чтобы информировать интервенционные действия, например, путем определения того, что курение вызывает рак легких, может быть разработана политика для борьбы с этим. Иногда мы хотим знать, «что» сообщать при принятии решений, например, выяснять, у кого может быть рак легких, и назначать им раннее лечение. В журнале Science опубликован специальный выпуск о прогнозировании и его пределах ( http://science.sciencemag.org/content/355/6324/468.). «Похоже, что успех достигается наиболее последовательно, когда вопросы решаются междисциплинарными усилиями, которые объединяют человеческое понимание контекста с алгоритмической способностью обрабатывать терабайты данных». По моему мнению, например, знания, обнаруженные с помощью тестирования гипотез, могут помочь контролировать обучение, информируя нас какие данные / особенности мы должны собирать в первую очередь. С другой стороны, контролируемое обучение может помочь генерировать гипотезы, сообщая, какие переменные
источник