Вопросы с тегом «r»

11
Fisher Scoring v / s Координатный спуск для MLE в R

Базовая функция R glm()использует баллы Фишера для MLE, в то время как, по- glmnetвидимому, используется метод спуска координат для решения того же уравнения. Спуск по координатам более эффективен по времени, чем оценка Фишера, так как оценка Фишера вычисляет производную матрицу второго порядка в...

11
Когда мы говорим, что набор данных не классифицируется?

Я много раз анализировал набор данных, по которому я не мог провести какую-либо классификацию. Чтобы увидеть, могу ли я получить классификатор, я обычно использовал следующие шаги: Создайте графические зависимости метки от числовых значений. Уменьшите размерность до 2 или 3, чтобы увидеть,...

11
Визуализация данных для анализа паттернов (не зависит от языка, но предпочтительнее для R)

Я хочу построить байты из образа диска, чтобы понять в них закономерность. Это в основном академическая задача, так как я почти уверен, что этот шаблон был создан программой тестирования диска, но я все равно хотел бы его перепроектировать. Я уже знаю, что шаблон выровнен с периодичностью 256...

11
Является ли 100% точность модели при превышении данных вне выборки?

Я только что закончил курс машинного обучения для R на cognitiveclass.ai и начал экспериментировать со случайными лесами. Я сделал модель, используя библиотеку randomForest из R. Модель классифицируется по двум классам: хороший и плохой. Я знаю, что, когда модель переоснащена, она хорошо работает...

11
GPU ускоренная обработка данных для R в Windows

В настоящее время я работаю над большими данными, в которых мы активно используем R для анализа данных. У меня в компьютере GTX1070 по игровым причинам. Таким образом, я подумал, что было бы действительно здорово, если бы я мог использовать это для ускорения обработки некоторых вещей, которые мои...

11
Какую регрессию использовать для расчета результата выборов в многопартийной системе?

Я хочу сделать прогноз на результат парламентских выборов. Мой результат будет%, который получает каждая сторона. Существует более двух сторон, поэтому логистическая регрессия не является жизнеспособным вариантом. Я мог бы сделать отдельный регресс для каждой партии, но в этом случае результаты...

11
Как избежать переобучения в случайном лесу?

Я хочу избежать переобучения в случайном лесу. В связи с этим я намерен использовать mtry, nodeize, maxnodes и т. Д. Не могли бы вы помочь мне выбрать значения для этих параметров? Я использую R. Также, если возможно, скажите, пожалуйста, как я могу использовать перекрестную проверку в k-кратном...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Масштабируемый выброс / обнаружение аномалий

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов,...

10
ggvis vs. ggplot2 + Shiny; какой выбрать для интерактивной визуализации?

В CrossValidated есть похожий вопрос, и я прочитал ответы. Мой вопрос немного другой. Я не хочу просто визуализировать свои данные, и на самом деле то, что я хочу визуализировать, нелегко визуализировать с помощью любого пакета. У меня есть два набора точек ( координаты ) на моем графике. Я хочу...

10
Тестирование программного обеспечения для Data Science в R

Я часто использую Nose, Tox или Unittest при тестировании моего кода на Python, особенно когда он должен быть интегрирован с другими модулями или другими частями кода. Однако теперь, когда я обнаружил, что использую R больше, чем python, для моделирования и разработки ML. Я понял, что на самом деле...

10
Инструменты для автоматического обнаружения аномалий в таблице SQL?

У меня есть большая таблица SQL, которая по сути является журналом. Данные довольно сложные, и я пытаюсь найти способ идентифицировать аномалии без понимания всех данных. Я нашел много инструментов для обнаружения аномалий, но большинство из них требует своего рода «среднего человека», то есть...

10
Какие начальные шаги я должен использовать, чтобы понять большие наборы данных, и какие инструменты я должен использовать?

Предостережение: я начинающий, когда дело доходит до машинного обучения, но хочу учиться. У меня большой набор данных, и я пытаюсь найти в нем закономерность. Может быть / не быть корреляции между данными, либо с известными переменными, либо с переменными, которые содержатся в данных, но которые я...

10
Изучение порядковой регрессии в R?

Я работаю над проектом и нуждаюсь в ресурсах, чтобы ускорить меня. Набор данных составляет около 35000 наблюдений по 30 или около того переменным. Около половины переменных являются категориальными, в то время как некоторые имеют много разных возможных значений, то есть, если вы разделите...

10
Нужно ли нормализовать данные при построении деревьев решений с использованием R?

Итак, наш набор данных на этой неделе имеет 14 атрибутов, и каждый столбец имеет очень разные значения. Один столбец имеет значения ниже 1, а другой - от трех до четырех целых цифр. Мы изучали нормализацию на прошлой неделе, и кажется, что вы должны нормализовать данные, когда они имеют очень...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Как экспортировать одну ячейку ноутбука Jupyter?

В настоящее время я работаю / создаю прототип в ноутбуке Jupyter . Я хочу запустить часть своего кода в отдельной оболочке iPython . Сейчас я экспортирую свой код iPython (file -> download as), а затем выполняю его на своем iPython (с% run). Это работает, но я хотел бы экспортировать только одну...

10
Статистика + Информатика = Наука о данных? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Я хочу стать специалистом по данным . Я изучал прикладную статистику (актуарная наука), поэтому у меня...

10
Визуализация предметов, часто покупаемых вместе

У меня есть набор данных в следующей структуре, вставленной в файл CSV: Banana Water Rice Rice Water Bread Banana Juice Каждая строка указывает коллекцию предметов, которые были куплены вместе. Например, первая строка обозначает, что элементыBanana , Waterи Riceбыли приобретены вместе. Я хочу...