Hein,
Есть много инструментов и библиотек с доступной функциональностью.
Какой из них выбрать, зависит от того, хотите ли вы использовать графический интерфейс для своей работы или хотите встроить его в какую-либо другую программу.
Автономные инструменты интеллектуального анализа данных (есть и другие, как WEKA с интерфейсом Java):
- Rapid Miner
- апельсин
- Погремушка GUI для R
- KNIME
На основе текста:
Libs:
- Scikit для Python
- Mahout на Hadoop
Если вы достаточно хорошо знаете язык программирования, я бы использовал lib для этого языка или попробовал бы R. Если нет, вы можете попробовать один из инструментов с графическим интерфейсом.
Пример дерева в R:
# we are using the iris dataset
data(iris)
# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)
# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)
# Plot the tree
plot(fit)
text(fit)
Как и предполагалось, анализ с использованием R требует от вас написания кода самостоятельно, но вы найдете пакет для большинства задач классификации, который будет работать «из коробки». Обзор можно найти здесь Machine Learning Task View
Чтобы начать работать с RapidMinder, вам нужно взглянуть на Youtube. Есть несколько скринкастов, даже для деревьев решений.
Weka - это бесплатный набор инструментов для машинного обучения с открытым исходным кодом. Они имеют графический интерфейс, а также API для вызова из вашего кода Java, если хотите.
У них есть много алгоритмов классификации, включая несколько алгоритмов дерева решений. Они доступны в пользовательском интерфейсе. Ближайшие соседи немного сложнее, и кажется, что вы должны использовать API напрямую .
Я думаю, что Rapid Miner, вероятно, поддерживает такие вещи, но я раньше не использовал их для таких целей.
Вы также можете рассмотреть R , но это может потребовать немного более грязных рук.
Обратите внимание, что Netflix проделал большую работу в классификации рейтинга фильмов. Несколько лет назад они предложили приз в 1 миллион долларов группе, которая могла бы улучшить их классификацию. Возможно, вам будет интересно узнать, как различные команды подошли к этой проблеме.
источник
Может быть ... ВЕКА? http://www.cs.waikato.ac.nz/ml/weka/
источник