Вопросы с тегом «r»

R - это свободный язык программирования с открытым исходным кодом и программная среда для статистических вычислений, биоинформатики и графики.

101
Python vs R для машинного обучения

Я только начинаю разрабатывать приложение машинного обучения для академических целей. В настоящее время я использую R и тренируюсь в этом. Тем не менее, во многих местах я видел людей, использующих Python . Что люди используют в научных кругах и промышленности, и какова...

85
Выбор скорости обучения

В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента...

63
Как получить корреляцию между двумя категориальными переменными и категориальными переменными и непрерывными переменными?

Я строю регрессионную модель, и мне нужно вычислить ниже, чтобы проверить корреляции Корреляция между 2 многоуровневыми категориальными переменными Корреляция между многоуровневой категориальной переменной и непрерывной переменной VIF (коэффициент инфляции дисперсии) для многоуровневых...

56
Когда модель недостаточно подходит?

Логика часто утверждает, что при недостаточном подборе модели ее способность к обобщению увеличивается. Тем не менее, в какой-то момент недооценка модели приводит к ухудшению моделей независимо от сложности данных. Как узнать, когда ваша модель достигла правильного баланса и не соответствует...

53
Почему интернет-компании предпочитают Java / Python для работы с данными?

Я часто вижу в описании работы для специалиста по данным, спрашивающего опыт работы с Python / Java, и не обращаю внимания на R. Ниже приведено личное письмо, которое я получил от главного специалиста по данным компании, в которую я обратился через linkedin. X, спасибо за подключение и проявление...

53
RNN против CNN на высоком уровне

Я думал о рекуррентных нейронных сетях (RNN) и их разновидностях, а также о сверточных нейронных сетях (CNN) и их разновидностях. Будут ли справедливы эти два момента, чтобы сказать: Используйте CNN, чтобы разбить компонент (например, изображение) на подкомпоненты (например, объект на изображении,...

48
Подходит ли язык R для больших данных

R имеет много библиотек, которые предназначены для анализа данных (например, JAGS, BUGS, ARULES и т. Д.), И упоминается в популярных учебниках, таких как: J. Krusche, Doing Bayesian Data Analysis; Б.Ланц, "Машинное обучение с R". Я видел рекомендацию в 5 ТБ для набора данных, который следует...

46
Альтернативы IDE для R-программирования (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Я использую RStudio для программирования R. Я помню твердые IDE из других технологических стеков, таких как Visual Studio или Eclipse. У меня есть два вопроса: Какие другие IDE, кроме RStudio, используются (пожалуйста, подумайте над предоставлением краткого описания для них). Есть ли у кого-нибудь...

37
Используют ли ученые данных Excel?

Я бы назвал себя специалистом по данным для подмастерья. Как и большинство (я думаю), я сделал свои первые диаграммы и свои первые агрегаты в средней школе и колледже, используя Excel. Пройдя колледж, аспирантуру и ~ 7 лет опыта работы, я быстро освоил то, что я считаю более продвинутыми...

34
Организованные процессы для очистки данных

Из моего ограниченного увлечения наукой данных с использованием R я понял, что очистка плохих данных является очень важной частью подготовки данных для анализа. Существуют ли передовые практики или процессы для очистки данных перед их обработкой? Если да, существуют ли какие-либо автоматизированные...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

28
В чем разница между гиперпараметрами модели и параметрами модели?

Я заметил, что такие термины, как гиперпараметр модели и параметр модели , использовались в сети взаимозаменяемо без предварительного разъяснения. Я думаю, что это неправильно и нуждается в объяснении. Рассмотрим модель машинного обучения, классификатор или распознаватель изображений на основе SVM...

27
Гипертюнинг параметров XGBoost

XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster...

26
Как установить количество нейронов и слоев в нейронных сетях

Я новичок в нейронных сетях, и мне было трудно понять две концепции: Как определить количество средних слоев в данной нейронной сети? 1 против 10 или что-то еще. Как определить количество нейронов в каждом среднем слое? Рекомендуется ли иметь одинаковое количество нейронов в каждом среднем слое или...

24
Образ VM для проектов по науке о данных

Поскольку существует множество инструментов, доступных для задач по науке о данных, и неудобно устанавливать все и создавать идеальную систему. Существует ли образ Linux / Mac OS с установленными и доступными для немедленного использования людьми Python, R и другими открытыми инструментами для...

24
Любая консоль Online R?

Я ищу онлайн-консоль для языка R. Как будто я пишу код, и сервер должен выполнить и предоставить мне вывод. Похоже на сайт

23
Что такое позиционное кодирование в модели трансформатора?

Я новичок в ML, и это мой первый вопрос здесь, так что извините, если мой вопрос глупый. Я пытаюсь прочитать и понять статью. Внимание - это все, что вам нужно, и в нем есть картинка: Я не знаю, что такое позиционное кодирование . Слушая некоторые видеоролики на YouTube, я обнаружил, что это...

22
Как бороться с временными рядами, которые изменяют сезонность или другие закономерности?

Задний план Я работаю над набором данных временных рядов показаний счетчиков энергии. Длина ряда варьируется в зависимости от метра - у некоторых у меня есть несколько лет, у других - всего несколько месяцев и т. Д. Многие демонстрируют значительную сезонность, а часто и несколько слоев - в течение...

20
Начинаю ли я свою карьеру в качестве Data Scientist, нужен ли опыт разработки ПО? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Я студент магистратуры в Университете Эдинбурга, специализируюсь на машинном обучении и обработке...

20
Извлечение ключевого слова / фразы из текста с использованием библиотек Deep Learning

Возможно, это слишком широко, но я ищу ссылки на то, как использовать глубокое обучение в задаче обобщения текста. Я уже реализовал суммирование текста, используя стандартные частотно-частотные подходы и ранжирование предложений, но я хотел бы изучить возможность использования методов глубокого...