Наука о данных

20
Начинаю ли я свою карьеру в качестве Data Scientist, нужен ли опыт разработки ПО? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Data Stack Exchange. Закрыто 5 лет назад . Я студент магистратуры в Университете Эдинбурга, специализируюсь на машинном обучении и обработке...

20
В чем разница между классификацией текста и тематическими моделями?

Я знаю разницу между кластеризацией и классификацией в машинном обучении, но я не понимаю разницу между классификацией текста и тематическим моделированием для документов. Могу ли я использовать моделирование темы поверх документов, чтобы определить тему? Могу ли я использовать методы классификации...

20
Как я могу получить меру семантического сходства слов?

Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot',...

20
Предсказание слова с использованием модели Word2vec

Принимая во внимание предложение: «Когда я открываю ?? дверь он начинает нагрев автоматически» Я хотел бы получить список возможных слов в ?? с вероятностью. Основная концепция, используемая в модели word2vec, заключается в том, чтобы «предсказать» слово в заданном окружающем контексте. Как только...

20
Керас против тф.керас

Я немного запутался в выборе между Keras (keras-team / keras) и tf.keras (tenorflow / tenorflow / python / keras /) для моего нового исследовательского проекта. Существует дискуссия о том, что Keras не принадлежит никому, поэтому люди будут рады внести свой вклад, и в будущем будет намного легче...

19
Как выполнить проектирование функций на неизвестных функциях?

Я участвую в соревнованиях по борьбе. Набор данных имеет около 100 объектов, и все они неизвестны (с точки зрения того, что на самом деле они представляют). В основном это просто цифры. Люди выполняют много функций по разработке этих функций. Мне интересно, как именно можно выполнить разработку...

19
Что способствует альфа- и бета-гиперпараметрам при распределении скрытого Дирихле?

У LDA есть два гиперпараметра, настройка их меняет навязанные темы. Что альфа- и бета-гиперпараметры влияют на LDA? Как меняется тема, если один или другой гиперпараметр увеличивается или уменьшается? Почему они гиперпараметры, а не просто...

19
Что означает «Количество единиц в ячейке LSTM»?

Из кода Tensorflow : Tensorflow. RnnCell. num_units: int, The number of units in the LSTM cell. Не могу понять, что это значит. Каковы единицы измерения ячейки LSTM. Вход, выход и забыть ворота? Означает ли это «количество единиц в текущем проекционном слое для Deep LSTM». Тогда почему это...

19
Как получить p-значение и доверительный интервал в LogisticRegression с помощью sklearn?

Я строю полиномиальную логистическую регрессию с помощью sklearn (LogisticRegression). Но после ее завершения, как я могу получить p-значение и доверительный интервал моей модели? Похоже, что sklearn обеспечивает только коэффициент и перехват. Большое тебе...

19
Что такое расстояние Хеллингера и когда его использовать?

Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger...

19
Как заполнить пропущенное значение на основе других столбцов в кадре данных Pandas?

Предположим, у меня есть кадр данных 5 * 3, в котором третий столбец содержит пропущенное значение 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Я надеюсь сгенерировать значение для пропущенного правила, основанного на том, что первый продукт второй столбец 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6...

19
Какую статистическую модель я должен использовать, чтобы проанализировать вероятность того, что одно событие повлияло на продольные данные

Я пытаюсь найти формулу, метод или модель, которые можно использовать для анализа вероятности того, что конкретное событие повлияло на некоторые продольные данные. Мне трудно понять, что искать в Google. Вот пример сценария: Представьте, что вы владеете бизнесом, в котором ежедневно посещают в...

19
Как создать синтетический набор данных, используя модель машинного обучения, изученную с использованием исходного набора данных?

Как правило, модель машинного обучения построена на наборах данных. Я хотел бы знать, существует ли какой-либо способ генерирования синтетического набора данных с использованием такой обученной модели машинного обучения, сохраняющей исходные характеристики набора данных? [оригинальные данные ->...

19
Как определить архитектуру нейронной сети?

Мне было интересно, как мы должны решить, сколько узлов в скрытых слоях и сколько скрытых слоев разместить при построении архитектуры нейронной сети. Я понимаю, что уровень ввода и вывода зависит от имеющегося у нас обучающего набора, но как нам определить скрытый уровень и общую архитектуру в...

19
Что такое «повтор опыта» и каковы его преимущества?

Я читал статью Google DeepMind Atari и пытаюсь понять концепцию «воспроизведения опыта». Воспроизведение опыта встречается во многих других документах для подкрепления (в частности, в статье AlphaGo), поэтому я хочу понять, как это работает. Ниже приведены некоторые выдержки. Во-первых, мы...

19
Почему ReLU используется в качестве функции активации?

Функции активации используются для введения нелинейностей в линейный вывод типа w * x + bв нейронной сети. Что я могу понять интуитивно для функций активации, таких как сигмоидальные. Я понимаю преимущества ReLU, который избегает мертвых нейронов во время обратного распространения. Однако я не могу...

19
Текстовая категоризация: объединение различных видов функций

Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в...

19
Как мне создать сложную радиолокационную карту?

Итак, я хочу создать радиолокационную диаграмму профиля игрока примерно так: Не только шкала каждой переменной различна, но также я хочу использовать обратную шкалу для некоторых статистических данных, таких как «лишенная» статистика, где меньше означает «хорошо». Одним из решений для переменной...

19
Способы работы с функцией долготы / широты [закрыто]

Закрыто . Этот вопрос нуждается в деталях или ясности . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Добавьте детали и проясните проблему, отредактировав этот пост . Закрыто 3 года назад . Я работаю над вымышленным набором данных с 25 функциями. Двумя характеристиками...

19
Можете ли вы объяснить разницу между SVC и LinearSVC в scikit-learn?

Я недавно начал учиться работать с sklearnи только что столкнулся с этим странным результатом. Я использовал digitsдоступный набор данных, sklearnчтобы попробовать разные модели и методы оценки. Когда я тестировал модель машины опорных векторов на данных, я обнаружил, что есть два разных класса...