Вклад в проекты с открытым исходным кодом, как правило, является хорошим способом получить некоторую практику для новичков и попробовать новую область для опытных исследователей данных и аналитиков.
Какие проекты вы вносите? Пожалуйста, предоставьте ссылку intro + на Github.
beginner
open-source
IharS
источник
источник
Ответы:
Проект Юлия является тот , который я активно содействовать, в том числе передовых вычислительных и библиотек XGBoost. Таким образом, я могу определенно ручаться за его поддержку и качество сообщества.
Вот некоторые действительно хорошие проекты в области научных данных с открытым исходным кодом, в которые могут внести свой вклад даже новички:
Вот Quora обсуждение таких проектов и некоторые другие, которые не упомянуты в этом ответе.
Вот еще одно приятное обсуждение проектов Data Science и ML с открытым исходным кодом на Python.
источник
Их много. Я не знаю, разрешено ли мне это делать (пожалуйста, дайте мне знать, если это неправильно), но я разрабатываю его, и он уже более 2 лет работает на git hub (фактически он начался за годы до github). Проект называется rapaio, на мерзавце ступицы здесь и недавно я начал писать руководство для него (некоторые из моих друзей спросили меня об этом). Руководство можно найти здесь .
Это соответствует вашим потребностям, если вы хотите разрабатывать на Java 8, если вы любите делать какие-либо инструменты и если вы любите экспериментировать. Есть только два принципа, которые я соблюдаю. Первый - писать что-то только тогда, когда вам это нужно . Это потому, что я твердо верю, что только когда вам нужен инструмент, вы также знаете, что вы действительно хотите от него с точки зрения производительности, производительности и информации. Второй принцип - вы зависите только от jdk, если вам что-то нужно, вы напишите это . Я могу согласиться с тем, что я старомоден, но вы можете настроить любую функцию для своих целей таким образом.
Если мне не позволено делать это как ответ, снова, пожалуйста, дайте мне знать. Хотя, поскольку это инициатива с открытым исходным кодом, отдавать что-то людям, не имеющим прибыли, я не вижу причин, почему я не смог этого сделать.
источник
Проверьте этот проект на github: https://github.com/josephmisiti/awesome-machine-learning . Он содержит полный список проектов с открытым исходным кодом, сгруппированных по языкам, с некоторыми краткими описаниями. Я думаю, что вы можете найти там некоторые из них, которые отвечают вашим потребностям.
источник
ELKI (также на GitHub ) - проект с открытым исходным кодом для интеллектуального анализа данных. Он уникален по своей модульной архитектуре: вы можете комбинировать алгоритмы, функции расстояния и индексы для ускорения с очень небольшими ограничениями (конечно, алгоритмы, которые не используют расстояния, нельзя комбинировать с расстояниями). Это не самый простой код из-за эффективности. Для интеллектуального анализа данных вы должны быть осторожны с памятью - использование
ArrayList<Integer>
не требуется, если вам нужна масштабируемость.Благодаря модульной архитектуре легко добавлять только небольшие модули, например, одну функцию расстояния или алгоритм.
Мы ведем список идей проектов по интеллектуальному анализу данных , сгруппированных по сложности. Большинство проектов являются реализацией некоторого варианта алгоритма. ELKI стремится разрешить сравнительное изучение алгоритмов, поэтому мы стараемся разрешить любую комбинацию, а также охватить варианты алгоритмов. Например, с помощью k-средних у нас есть не только алгоритм Lloyds, но и 10 вариантов общей темы k-средних. Более 220 статей были (по крайней мере, частично) переизданы в ELKI.
Реализуя все в одном инструменте, мы получаем гораздо более сопоставимые результаты. Если вы используете R для бенчмаркинга, вы обычно сравниваете яблоки и апельсины. k-means в самом R - на самом деле старая программа на Фортране, и очень быстрая. k-означает в R, но в пакете "flexclust" медленнее в 100 раз, потому что оно написано в реальном R-коде. Так что не доверяйте эталонному тесту в R ... также, R-модули, как правило, несовместимы, поэтому вы часто не можете использовать расстояние A от модулей A с алгоритмом B от модуля B. В ELKI мы пытаемся разделить столько кода, сколько В разных реализациях возможно уменьшить количество таких артефактов (конечно, никогда не удастся получить 100% справедливый эталон - всегда есть место для оптимизации), но также можно легко комбинировать модули.
Вы можете начать с чего-то небольшого, такого как вариант k-средних Хартигана и Вонга, а затем перейти к сферическому k-среднему (что предназначено для разреженных данных, где может потребоваться различная оптимизация производительности) и продолжить добавлять улучшенную поддержку категориальных данных; или добавление функции индексирования.
Я также хотел бы увидеть лучший интерфейс для ELKI , но это серьезное усилие.
источник
Если кому-то нравятся кроссплатформенные инструменты визуального программирования, то вам подойдет Orange . Недавно переехав в Python 3, они еще не перенесли все виджеты. Он переносит стек PyData (NumPy, SciPy, SciKit Learn, ...) в Python 3, PyQt, PyQtGraph, и это GPL-код на GitHub .
источник