Масштабирование функций: почему, что, где, как?

Зачем масштабировать объекты

В большинстве случаев разные характеристики в данных могут иметь разную величину. Например, в случае наборов данных о покупках продуктов, мы обычно наблюдаем вес продукта в граммах или фунтах, которые будут большими числами, в то время как цена продукта может быть в долларах. которые будут меньшими числами. Многие алгоритмы машинного обучения используют евклидово расстояние между точками данных в своих вычислениях. Наличие двух функций с разным диапазоном чисел позволит функции с большим диапазоном доминировать в алгоритме.

Что такое масштабирование функций

Масштабирование признака - это метод предварительной обработки, при котором мы изменяем диапазон числового признака. В первую очередь, с числовым признаком можно сделать три вещи:

Изменение масштаба

Изменение масштаба означает добавление или вычитание константы из вектора, а затем умножение или деление вектора на константу (f (x) = ax + b). Примером может служить изменение единиц измерения, например Цельсия на Фаренгейт.

Нормализация

Нормализация означает разделение признака с Нормой вектора. По сути, мы хотим, чтобы евклидово расстояние вектора было равно 1.

Есть две нормализации, которые можно сделать.

Мин-макс нормализация:

Мы масштабируем диапазон значений до [-1,1] или [0,1]. Формула

2. Средняя нормализация:

Вместо того, чтобы использовать минимальное значение для настройки, мы используем среднее значение функции.

Стандартизация

Стандартизация означает доведение среднего значения вектора до 0 и стандартного отклонения до 1. Обычно это делается путем вычитания среднего значения и деления на стандартное отклонение. Стандартизованное значение также называется Z-оценкой.

Где делать масштабирование функций

Существует семейство алгоритмов, которые инвариантны к масштабу, как и древовидные алгоритмы, где масштабирование не требуется, поскольку они не являются моделями на основе расстояния.

Некоторые семейные алгоритмы, такие как линейный дискриминантный анализ (LDA), наивный байесовский анализ, присваивают веса функциям в зависимости от их диапазона, и, следовательно, масштабирование не влияет на эти алгоритмы.

Есть другие алгоритмы, в которых помогает масштабирование, например, анализ главных компонентов (PCA), k-ближайших соседей (Knn), линейная / логистическая регрессия (при регуляризации), где масштабирование помогает нам избежать перекоса в сторону большой величины. особенность. Даже нейронные сети выигрывают от масштабирования функций.

Но в целом функции масштабируются, так как это помогает быстрее сходиться в градиентных алгоритмах. Как показано ниже

Как: модуль предварительной обработки scikit-learn имеет отличный API и документацию по масштабированию функций здесь.

материалы по теме:

Новые материалы

[Архив поста] Предварительная обработка данных МРТ для PROSTATex Challenge

Обратите внимание, что этот пост предназначен для моих собственных образовательных целей. https://github.com/saifengliu/PROSTATex/blob/master/prostatex-data-preprocessing-20180425.pdf Как..

Я обязательно пройду курс.

Я обязательно пройду курс. Я взял версию Python несколько лет назад на EDX (Введение в вычислительное мышление в Python), который преподавал великий профессор Эрик Гримсон из Массачусетского..

Регрессивный анализ

Регрессивный анализ RASeries#3 — Регрессия Регресс? Как только мы определим, что между X и Y существует значительная линейная зависимость, для представления этой линейной зависимости..

Что делать, когда травят?

Расскажите об этом своим родителям. Если это произойдет даже в школе, немедленно сообщите об этом администрации школы. Чтобы сообщить о: Facebook, нажмите здесь:..

Шаблон проектирования посредника — 3-минутная серия

Это супер коммуникатор и центральный контроллер. _00 / Концепция Инкапсулируйте всю бизнес-логику внутри посредника. Участник будет общаться только с Медиатором. Он не будет знать, есть..

Первые принципы программирования: секрет раскрытия вашего потенциала и создания прорыва…

Раскройте свой творческий потенциал и выделитесь среди остальных: руководство для начинающих по основам программирования Когда дело доходит до решения проблем и создания инновационных..

Наш взгляд на IJCAI 2022

Международная объединенная конференция по искусственному интеллекту (IJCAI) — главное событие для исследователей, работающих во всех областях ИИ. Среди специализированных треков по глубокому..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Deep Learning Coding React AI Software Engineering Tech Front End Development Nodejs Development Algorithms HTML Angular Computer Science Typescript Data Java Data Analysis Javascript Tips Javascript Development CSS Education DevOps Learning Interview Productivity Startup ES6 Neural Networks Reactjs Learning To Code iOS