Какой алгоритм машинного обучения можно использовать для определения шаблонов в наборе данных о производительности кэша ЦП?

9

Мне нужен алгоритм машинного обучения для определения шаблонов в наборе данных (сохраненном в CSV-файле), который содержит подробную информацию о производительности кэша ЦП. Более конкретно, набор данных содержит столбцы , как Readhits, Readmissили Writehits.

Шаблоны, которые определяет алгоритм, должны быть полезны следующими способами.

  1. помочь пользователю повысить производительность рабочей нагрузки в следующий раз,

  2. помочь определить любые проблемы, основанные на функциях, или

  3. помочь пользователю предсказать будущие значения данных или будущие события, которые могут произойти на основе шаблонов.

Какие алгоритмы ML я могу использовать?

AAAAAAAA
источник

Ответы:

0

Ограниченные машины Больцмана (RBM) могут идентифицировать шаблоны в файле CSV без указания пользователем каких-либо условий. Они хорошо приспособлены для создания «распределенных и градуированных представлений» сложного набора функций, составляющих реальные многомерные данные, которые имеют решающее значение для достижения высокой производительности в задачах машинного обучения ». 1

Поскольку формат CSV специально разработан для представления экземпляров в строках и статического набора атрибутов в столбцах, настройка обучения проста. Если цель состоит в том, чтобы идентифицировать временные образцы, может потребоваться стратегия управления окнами.

K-RBM - это слияние подходов с k-средним значением с RBM. Выбор подхода во многом зависит от того, какие образцы искать. Термин «шаблон» может применяться к простым тенденциям чисел с течением времени, общим шаблонам в текстовых столбцах или сложным шаблонам, выведенным из нескольких столбцов.

Ссылки

[1] Появление композиционных представлений в ограниченных машинах Больцмана , Дж. Тубиана, Р. Монассон, 2017)

[2] Изучение нескольких нелинейных подпространств с использованием K-RBM , Сиддхартха Чандры, Шайлеша Кумара и CV Джавахара

Дуглас Дасеко
источник
0

Я бы лично пошел с кластеризацией k-средних. Он предназначен для таких проблем.

Уильям Скотт
источник
0

Мне нужен алгоритм машинного обучения, чтобы определить любые шаблоны в файле CSV

Вы хотите заниматься без обучения . Википедия это же определение:

Неуправляемое машинное обучение - это задача машинного обучения, заключающаяся в том, чтобы вывести функцию для описания скрытой структуры из «немеченых» данных (классификация или категоризация не включены в наблюдения).

Я рекомендую вам пройти через список неконтролируемых алгоритмов обучения здесь и использовать тот , который будет соответствовать вашим потребностям.

Если вы только начинаете, я бы рекомендовал начать с изучения алгоритма кластеризации K-средних .

Dawny33
источник
0

Во-первых, вы должны классифицировать каждый кусок файла CSV и пометить его в соответствии с текущей ситуацией, например, A) оптимальная ситуация B) критическая.

Затем вы кластеризуете свои данные с помощью алгоритма обучения без контроля, такого как SOM или k-means, и затем просто классифицируете классы, которые вы получите.

simonepi
источник
0

Вы в основном ищете обучение без надзора (UL). Есть много методов UL, но я не уверен, что вы найдете тот, который делает именно то, что вы хотите, без какого-либо пользовательского ввода вообще. Тем не менее, если вы изучите литературу по этим подходам, вы можете найти что-то полезное.

Одним из вариантов является DBSCAN , очень популярный алгоритм кластеризации, который не требует от пользователя ввода начального целевого числа кластеров (что требуется большинству алгоритмов кластеризации). Но даже тогда вы все равно должны указать значения алгоритма для epsilon(расстояние, используемое при расчете кластеров) и minPts(минимальное количество точек, необходимое для создания «плотной» области).

Вы могли бы также взглянуть на самоорганизующиеся карты , подход к обучению с использованием нейронов без контроля.

Некоторые другие поисковые термины, которые могут привести вас в полезное русло, включают «извлечение данных» и «обнаружение знаний в базах данных» (KDD).

Mindcrime
источник