Вопросы с тегом «feature-construction»

Разработка функций - это процесс использования знаний о данных в предметной области для создания функций для моделей машинного обучения. Этот тег предназначен как для теоретических, так и для практических вопросов, связанных с проектированием функций, за исключением вопросов, касающихся кода, которые не будут рассматриваться в CrossValidated.

58
Принципиальный способ свертывания категориальных переменных со многими уровнями?

Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен,...

24
Как инициализировать элементы матрицы фильтра?

Я пытаюсь лучше понять сверточные нейронные сети, написав код Python, который не зависит от библиотек (например, Convnet или TensorFlow), и я застрял в литературе о том, как выбирать значения для матрицы ядра, когда выполнение свертки на изображении. Я пытаюсь понять детали реализации в шаге между...

24
Автоэнкодеры не могут выучить значимые функции

У меня есть 50000 изображений, таких как эти два: Они изображают графики данных. Я хотел извлечь функции из этих изображений, поэтому я использовал код автоэнкодера, предоставленный Theano (deeplearning.net). Проблема в том, что эти автоэнкодеры, похоже, не изучают никаких функций. Я попробовал...

24
Как изобразить географию или почтовый индекс в модели машинного обучения или в системе рекомендаций?

Я строю модель, и я думаю, что географическое местоположение, вероятно, будет очень хорошим для предсказания моей целевой переменной. У меня есть почтовый индекс каждого из моих пользователей. Я не совсем уверен в том, как лучше всего включить в мою модель почтовый индекс в качестве предиктора....

22
Когда мы должны дискретизировать / bin непрерывные независимые переменные / функции, а когда нет?

Когда мы должны дискретизировать / bin независимые переменные / функции, а когда нет? Мои попытки ответить на вопрос: В общем, мы не должны bin, потому что binning потеряет информацию. Биннинг на самом деле увеличивает степень свободы модели, поэтому после биннинга возможна чрезмерная подгонка....

20
Почему работает особенность инженерии?

Недавно я узнал, что одним из способов найти лучшее решение проблем ОД является создание функций. Это можно сделать, например, суммируя две особенности. Например, мы обладаем двумя функциями «атака» и «защита» какого-то героя. Затем мы создаем дополнительную функцию под названием «общее», которая...

19
Оптимальное построение дневной функции в нейронных сетях

Работая над проблемой регрессии, я начал думать о представлении функции «день недели». Интересно, какой подход будет работать лучше: одна особенность; значение 1/7 для понедельника; 2/7 для вторника ... 7 функций: (1, 0, 0, 0, 0, 0, 0) для понедельника; (0, 1, 0, 0, 0, 0, 0) для вторника ... Это...

19
Что такое «характерное пространство»?

Какое определение для "пространственного объекта"? Например, читая о SVM, я читал о «сопоставлении с пространством объектов». Когда я читал о CART, я читал о «разбиении на функциональное пространство». Я понимаю, что происходит, особенно для CART, но я думаю, что есть какое-то определение, которое...

19
Учебники для разработки функций

Как всем известно, разработка функций чрезвычайно важна для машинного обучения, однако я нашел немного материалов, связанных с этой областью. Я участвовал в нескольких соревнованиях в Kaggle и считаю, что в некоторых случаях хорошие характеристики могут быть даже важнее, чем хороший классификатор....

15
Смешивать непрерывные и двоичные данные с линейным SVM?

Так что я играл с SVM, и мне интересно, хорошо ли это делать: У меня есть набор непрерывных функций (от 0 до 1) и набор категориальных функций, которые я преобразовал в фиктивные переменные. В этом конкретном случае я кодирую дату измерения в фиктивной переменной: У меня есть 3 периода, из которых...

15
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?

Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA...

15
Максимальное среднее расхождение (распределение по расстоянию)

У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными. исходные данные, хз целевые данные, Xt Матрица...

13
Особенности построения и нормализации в машинном обучении

Допустим, я хочу создать классификатор логистики для фильма М. Мои особенности будут примерно такими, как возраст человека, пол, род занятий, местоположение. Так что тренировочный набор будет примерно таким: Возраст Пол Род занятий Расположение Нравится (1) / Не нравится (0) 23 M Software США 1 24...

12
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций

У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом...

12
Инженерно-независимый признак, который сохраняет смысловой смысл?

Функциональное проектирование часто является важным компонентом машинного обучения (оно активно использовалось для победы в KDD Cup в 2010 году ). Тем не менее, я считаю, что большинство технических характеристик техники либо уничтожить любое интуитивное значение основных функций или очень...

10
Понимание хеширования функций

Википедия предоставляет следующий пример при описании хеширования функций ; но отображение не соответствует определенному словарю Например, toдолжен быть преобразован в 3соответствии со словарем, но он закодирован как 1вместо. Есть ли ошибка в описании? Как работает функция хеширования? Тексты:...

10
Алгоритм машинного обучения для ранжирования

У меня есть набор элементов которые я могу описать в соответствии с n характеристиками. Таким образом:ИксИксXNNn Икся: { cя 1, ся 2, … , Ся н} ∣ хя∈ XИкся:{ся1,ся2,...,сяN}|Икся∈Иксx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X где - (числовая) оценка для элемента i согласно характеристикам...

10
Почему случайные функции Фурье неотрицательны?

Случайные функции Фурье обеспечивают приближение к функциям ядра. Они используются для различных методов ядра, таких как SVM и гауссовские процессы. Сегодня я попытался использовать реализацию TensorFlow и получил отрицательные значения для половины своих функций. Насколько я понимаю, этого не...

10
Работа с очень большими наборами данных временных рядов

У меня есть доступ к очень большому набору данных. Данные взяты из записей MEG людей, слушающих музыкальные отрывки из одного из четырех жанров. Данные следующие: 6 предметов 3 экспериментальных повторения (эпохи) 120 испытаний за эпоху 8 секунд данных на испытание при 500 Гц (= 4000 отсчетов) по...

9
Как подготовить / построить функции для обнаружения аномалий (данные сетевой безопасности)

Моя цель - проанализировать сетевые журналы (например, Apache, syslog, аудит безопасности Active Directory и т. Д.), Используя кластеризацию / обнаружение аномалий для целей обнаружения вторжений. Из журналов у меня много текстовых полей, таких как IP-адрес, имя пользователя, имя хоста, порт...