В математике есть такие отрасли, как алгебра, анализ, топология и т. Д. В машинном обучении есть обучение под присмотром, без присмотра и подкрепление. В каждой из этих ветвей есть более тонкие ветви, которые еще больше разделяют методы.
У меня проблемы с проведением параллели со статистикой. Какими будут основные отрасли статистики (и подотрасли)? Идеальный раздел, вероятно, не возможен, но все же лучше, чем большая пустая карта.
self-study
classification
silly.deer
источник
источник
Ответы:
Я считаю эти системы классификации крайне бесполезными и противоречивыми. Например:
и так далее. В математике нет однозначных «ветвей» и статистики не должно быть.
источник
Это незначительный контрапункт ответа Роба Хиндмана. Это началось как комментарий, а затем стало слишком сложным для одного. Если это слишком далеко от решения основного вопроса, я прошу прощения и удалю его.
Биология изображает иерархические отношения задолго до первого дарвиновского рисунка (см. Комментарий Ника Кокса). Большинство эволюционных отношений все еще показаны с этим типом красивого, чистого, ветвящегося «филогенетического дерева»:
Однако в конце концов мы поняли, что биология сложнее, чем эта. Иногда происходит генетический обмен (посредством скрещивания и других процессов) между различными видами и генами, присутствующими в одной части дерева, «прыгают» в другую часть дерева. Горизонтальный перенос генов перемещает гены таким образом, что делает простое изображение дерева выше неточным. Однако мы не отказались от деревьев, а просто создали модификации для этого типа визуализации:
За этим труднее следовать, но он дает более точную картину реальности.
Другой пример:
Тем не менее, мы никогда не представляем эти более сложные фигуры, потому что их трудно понять без понимания основных понятий. Вместо этого мы учим основную идею простой фигуре, а затем представляем им более сложную фигуру и новые сложности в истории.
Любая «карта» статистики также будет и неточной, и ценным учебным пособием. Визуализации в форме, которую предлагает OP, очень полезны для студентов и не должны игнорироваться только потому, что они не в состоянии охватить реальность в целом. Мы можем добавить больше сложности к картине, как только у них будет базовая структура.
источник
Вы можете посмотреть ключевые слова / теги на веб-сайте Cross Validated.
Филиалы как сеть
Один из способов сделать это - построить его как сеть, основанную на отношениях между ключевыми словами (как часто они совпадают в одном и том же сообщении).
Когда вы используете этот sql-скрипт для получения данных сайта с (data.stackexchange.com/stats/query/edit/1122036)
Затем вы получите список ключевых слов для всех вопросов с оценкой 2 или выше.
Вы можете изучить этот список, нарисовав что-то вроде следующего:
Обновление: то же самое с цветом (на основе собственных векторов матрицы отношений) и без тега самообучения
Вы можете очистить этот график немного дальше (например, убрать теги, которые не относятся к статистическим понятиям, такие как программные теги, на приведенном выше графике это уже сделано для тега 'r') и улучшить визуальное представление, но я думаю, что это изображение выше уже показывает хорошую отправную точку.
R-код:
Иерархические ветви
Я полагаю, что этот тип сетевых графиков выше относится к некоторым критическим замечаниям относительно чисто разветвленной иерархической структуры. Если вам нравится, я думаю, вы могли бы выполнить иерархическую кластеризацию, чтобы превратить ее в иерархическую структуру.
Ниже приведен пример такой иерархической модели. Еще нужно найти правильные имена групп для различных кластеров (но я не думаю, что эта иерархическая кластеризация является хорошим направлением, поэтому я оставляю ее открытой).
Измерение расстояния для кластеризации было найдено методом проб и ошибок (внесение корректировок, пока кластеры не появятся хорошо.
Автор StackExchangeStrike
источник
Самый простой способ ответить на ваш вопрос - найти общие таблицы классификации. Например, Математическая предметная классификация 2010 года используется некоторыми публикациями для классификации статей. Они актуальны, потому что именно так многие авторы классифицируют свои собственные статьи.
Есть много примеров подобных классификаций, например , классификация arxiv или UDK (универсальная десятичная классификация) Министерства образования России, которая широко используется для всех публикаций и исследований.
Другим примером является система JEL Claasification Американской экономической ассоциации. Статья Роба Хиндмана « Автоматическое прогнозирование временных рядов: пакет прогноза для R ". Это классифицируется как C53, C22, C52 в соответствии с JEL. Хотя Хиндман имеет смысл критиковать древовидные классификации. Лучшим подходом может быть тегирование, например, ключевые слова в его статье: «Модели ARIMA, автоматическое прогнозирование, экспоненциальное сглаживание, интервалы прогнозирования, модели пространства состояний, временные ряды, R.» Можно утверждать, что это лучший способ классифицировать статьи, так как они не являются иерархическими, и можно построить несколько иерархий.
@whuber отметил, что некоторые последние достижения, такие как машинное обучение, не будут включены в статистику в существующих классификациях. Например, посмотрите на статью « Глубокое обучение: введение для прикладных математиков » Кэтрин Ф. Хайам, Десмонд Дж. Хайам. Они классифицировали свою бумагу под вышеупомянутым MSC как 97R40, 68T01, 65K10, 62M45. они в области компьютерных наук, математического образования и численного анализа в дополнение к статистике
источник
Одним из способов решения этой проблемы является поиск сетей цитирования и соавторства в журналах статистики, таких как Annals of Statistics, Biometrika, JASA и JRSS-B. Это было сделано:
Они определили сообщества статистиков и использовали свое понимание предметной области, чтобы обозначить сообщества как:
Статья включает в себя подробное обсуждение сообществ наряду с разложением более крупных в дальнейшие сообщества.
Это может не полностью ответить на вопрос, так как он касается областей исследования статистиков, а не всех областей, включая те, которые больше не активны. Надеюсь, это, тем не менее, полезно. Конечно, есть и другие предостережения (например, только с учетом этих четырех журналов), которые обсуждаются далее в статье.
источник
Я вижу много удивительных ответов, и я не знаю, как можно получить скромную самодельную классификацию, но я не знаю ни одной всеобъемлющей книги всех статистических данных, чтобы показать краткое изложение, и я думаю, что, как @ mkt блестяще прокомментировал, классификация области исследования может быть полезной. Итак, вот мой выстрел:
Конечно, это слишком упрощенно, оно предназначено только для того, чтобы донести идею до того, кто едва знаком с этой областью, каждый из нас здесь наверняка знает, что существует много методов между категориями, многие другие, которых я не знал ». т, потому что они менее известны или потому что я просто забыл. Надеюсь, вам понравится.
источник
Один из способов упорядочить эту информацию - найти хорошую книгу и взглянуть на оглавление. Это парадокс, потому что вы специально спрашивали о статистике , в то время как большинство вводных текстов на уровне выпускников по этой теме предназначены для статистики и теории вероятностей вместе. Книга, которую я читаю по регрессии, теперь имеет следующее содержание:
Модели двоичных данных
Модели общей регрессии
(Остальные разделы поддерживают математику и теорию вероятностей)
источник