Наука о данных

15
Различие функций активации в нейронных сетях в целом

Я изучил типы функций активации для нейронных сетей. Сами функции довольно просты, но различие в применении не совсем понятно. Разумно различать логические и линейные функции, в зависимости от желаемого двоичного / непрерывного вывода, но в чем преимущество сигмоидальной функции перед простой...

15
Библиотека Python для реализации скрытых марковских моделей

Какую стабильную библиотеку Python я могу использовать для реализации скрытых марковских моделей? Мне нужно, чтобы это было достаточно хорошо задокументировано, потому что я никогда раньше не использовал эту модель. В качестве альтернативы, есть ли более прямой подход к выполнению анализа временных...

15
Параметризация регрессии угла поворота

Допустим, у меня есть стрелка сверху вниз, и я хочу предсказать угол, под которым эта стрелка. Это будет от до градусов или от до . Проблема в том, что эта цель круговая, и градусов - это одно и то же, что является инвариантностью, которую я хотел бы включить в свою цель, что должно значительно...

15
удаление строк после определенного символа в данном тексте

У меня есть набор данных, как показано ниже. Я хочу удалить все символы после символа ©. Как я могу сделать это в R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)...

15
Дерево решений против KNN

В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому...

15
Почему функции активации должны быть монотонными?

В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными. Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не...

15
Научные проекты с открытым исходным кодом

Вклад в проекты с открытым исходным кодом, как правило, является хорошим способом получить некоторую практику для новичков и попробовать новую область для опытных исследователей данных и аналитиков. Какие проекты вы вносите? Пожалуйста, предоставьте ссылку intro + на...

15
Сходство между двумя словами

Я ищу библиотеку Python, которая помогает мне определить сходство между двумя словами или предложениями. Я буду выполнять преобразование аудио в текст, что приведет к появлению английского словаря или словарных слов (это может быть имя человека или компании). После этого мне нужно сравнить его с...

15
Интуиция за ограниченной машиной Больцмана (RBM)

Я прошел курс Джеффа Хинтона по нейронным сетям на Coursera, а также познакомился с ограниченными машинами Больцмана , все еще не понимая интуицию, лежащую в основе УОКР. Зачем нам нужно вычислять энергию в этой машине? И какая польза от вероятности в этой машине? Я также видел это видео . В видео...

15
R: машинное обучение на GPU

Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...

14
Когда p-значения обманчивы?

Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту...

14
Зачем замышлять, если Max Pooling все равно собирается уменьшить изображение?

Идея применения фильтров для идентификации чего-либо, например, для идентификации ребер, является довольно крутой идеей Например, вы можете получить изображение 7. С некоторыми фильтрами вы можете получить преобразованные изображения, которые подчеркивают различные характеристики исходного...

14
Подходит ли Python для больших данных

В этом посте я прочитал, подходит ли язык R для больших данных, из которых состоят большие данные 5TB, и хотя он хорошо справляется с предоставлением информации о возможности работы с данными такого типа, Rон предоставляет очень мало информации Python. Мне было интересно, Pythonможно ли работать с...

14
RNN с использованием нескольких временных рядов

Я пытаюсь создать нейронную сеть, используя временные ряды в качестве входных данных, чтобы обучать ее на основе типа каждой серии. Я читал, что, используя RNN, вы можете разделить входные данные на пакеты и использовать каждую точку временного ряда в отдельных нейронах и, в конечном итоге, обучить...

14
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?

Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? Я бы, по крайней мере , ожидал...

14
Использование атрибутов для классификации / кластеризации пользовательских профилей

У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта....

14
Как сделать нечеткое совпадение почтовых адресов?

Я хотел бы знать, как сопоставить почтовые адреса, когда их формат отличается или когда один из них введен неправильно. Пока я нашел разные решения, но думаю, что они довольно старые и не очень эффективные. Я уверен, что существуют лучшие методы, так что если у вас есть ссылки для чтения, я уверен,...

14
Дерево решений или логистическая регрессия?

Я работаю над проблемой классификации. У меня есть набор данных, содержащий равное количество категориальных переменных и непрерывных переменных. Как я узнаю, какую технику использовать? между деревом решений и логистической регрессией? Правильно ли предположить, что логистическая регрессия будет...

14
Изменение размера изображения и отступ для CNN

Я хочу обучить CNN распознаванию изображений. Изображения для обучения не имеют фиксированного размера. Я хочу, чтобы размер ввода для CNN был 50x100 (высота х ширина), например. Когда я изменяю размер изображения небольшого размера (например, 32x32) до входного размера, содержимое изображения...

14
Можно ли считать более близкие точки более похожими в визуализации T-SNE?

Из статьи Хинтона я понимаю, что T-SNE хорошо справляется с сохранением локального сходства и достойной работой по сохранению глобальной структуры (кластеризация). Однако я не уверен, можно ли считать точки, появляющиеся ближе в 2D-визуализации t-sne, «более похожими» точками данных. Я использую...