Глубокое погружение в матрицу путаницы, понимание порога, площади под кривой (AUC) ROC и их основного влияния на оценку модели.

Вы только что начали машинное обучение и завершили контролируемую линейную регрессию. Теперь вы можете создавать модели с удовлетворительной точностью. Теперь вы перейдете к модели классификации. Вы обучаете модель и тестируете ее на данных валидации (тестирования) и вуаля, вы получаете колоссальный балл точности 91%. Но является ли точность правильным методом оценки для вашей модели? Матрица неточностей ответит на этот вопрос. В Интернете есть множество руководств, которые объяснят, что такое матрица путаницы. Эта статья поможет вам понять, как компании используют анализ матрицы неточностей для своих бизнес-решений.

Что такое матрица неточностей?

Простыми словами, матрица неточностей содержит количество наших предсказанных данных, разделенных на 4 части относительно исходных данных. Его можно сформировать для задачи классификации.

Давайте разберемся с четырьмя частями на примере спам-фильтра. Есть электронные письма, которые являются спамом, а не спамом. Наш спам-фильтр предсказывает это.
1) Истинно-отрицательные (TN): изначально не спам, но прогнозируются как не спам.
2) Истинно-положительные (TP): изначально спам, прогнозируется как спам.
3) Ложноотрицательный (FN): изначально спам, но не спам.
4) Ложно-отрицательный (FP): изначально не спам, но спам.

Мы можем ясно видеть, что TN и TP являются правильными прогнозами нашей модели и что точность может быть рассчитана следующим образом: (TN + TP) / (общие прогнозы). Но компании редко принимают решения исключительно на основе оценки точности. Есть много значений, полученных из матрицы неточностей, таких как чувствительность, специфичность, отзыв, точность и т. Д., Которые предпочтительны в соответствии с рассматриваемой бизнес-проблемой. Мы легко можем найти формулы для этих показателей производительности в Интернете. Давайте теперь попробуем понять важность этих точечных показателей, используя бизнес-сценарий банка, пытающегося предсказать неплательщиков ссуд.

Оценка матрицы недоразумений для неплательщиков банковских кредитов

Банк создает модель, чтобы предсказать, является ли клиент неплательщиком или не использует свою предыдущую базу данных. Здесь TN фактически и прогнозируется как неплательщик, TP фактически и прогнозируется как неплательщик. Ошибки модели - это FN и FP, где FN на самом деле является дефолтером, но прогнозируется как неплательщик, а FP на самом деле является неплательщиком, предсказанным как дефолт.
В этом случае компания сохранит Обратите внимание на два параметра:
1) Показатель истинных положительных результатов (TPR): показатель истинных положительных результатов, также известный как чувствительность. В этом случае это будет TP / (TP + FN). Этот показатель покажет нам, сколько из всех фактических неплательщиков предсказано правильно. Для этого банку потребуется высокая стоимость. В идеале это должно быть 1, потому что для банка будет выгодно, если они смогут предсказать неплательщика и отклонить заявку со 100-процентной уверенностью.
2) Уровень ложных положительных результатов (FPR) : количество ложных срабатываний определяется как (FP / TN + FP), также известное как 1-специфичность. Эта метрика покажет нам, сколько из всех неплательщиков прогнозируется моделью машинного обучения как неплательщики. Предпочтительно низкое значение FPR. В идеале оно должно быть равно нулю, потому что высокое значение будет означать, что банк откажется от потенциально хороших клиентов, если будет внедрена модель машинного обучения, тем самым сократив общий бизнес банка.

Пороговое значение и его влияние на матрицу неточностей

Одна вещь, которую мы можем понять, - это то, что матрицу неточностей можно анализировать в соответствии с имеющейся бизнес-проблемой. Давайте теперь попробуем понять, как формируется Матрица путаницы. Как видно на рисунке, у нас есть набор Y-оригиналов, и наша модель дает Y-вероятность как результат задачи классификации. Здесь Y-вероятность - это вероятность того, что Y будет равно 1 (неплательщик) или 0 (неплательщик) в соответствии с нашим примером.

Мы можем установить пороговое значение, чтобы классифицировать все значения больше порогового значения как 1 и меньше этого как 0. Так прогнозируется Y, и мы получаем «прогноз Y». Значение по умолчанию для порога, при котором мы обычно получаем матрицу неточности, равно 0,50. Здесь начинается самое интересное. Мы можем изменить это пороговое значение. Изменение порогового значения приведет к изменению прогнозируемых значений Y, поэтому новая матрица путаницы будет отличаться и, что более важно, значения TPR и FPR тоже изменится. Таким образом, мы можем визуализировать, что для каждого уникального значения порога мы получим разные значения TPR и FPR. Когда эти различные значения TPR (чувствительность) и FPR (1-специфичность) наносятся на диаграмму рассеяния и через них проходит линия, мы получаем то, что мы, как известно, назвали Кривая рабочих характеристик приемника (ROC).

Кривая ROC отличается для разных моделей классификационного машинного обучения. Так же, как чувствительность или точность, площадь под кривой (AUC) кривой ROC рассматривается как очень ценный показатель для оценки модели. ROC на рисунке имеет высокий AUC. Мы также можем видеть, что есть точка на графике, где TPR (чувствительность) довольно высока, а FPR (1-специфичность) очень низка. Если мы вернемся назад и посмотрим на потребности нашего бизнеса, нам нужен был высокий TPR и низкий FPR, это именно то, что мы получаем с этой точки этого ROC. Пороговое значение, соответствующее этой точке, можно назвать наилучшим пороговым значением. Но в реальных сценариях не всегда возможно построить модель с очень высоким AUC. Вот как будет выглядеть ROC приличной классификационной модели:

Глядя на график, мы можем понять, что для достижения хорошего показателя истинно положительных результатов необходимо также повысить показатель ложных положительных результатов. Поэтому между ними должен быть сделан компромисс. Теперь, переходя к бизнес-части, банк эффективно балансирует между сокращением неплательщиков (повышением TPR) и сокращением неправильной классификации хороших клиентов как вероятных неплательщиков. (понижая FPR). Следовательно, в этом случае организация не может полагаться только на точность модели. Прежде чем делать какие-либо выводы и принимать бизнес-решения, необходим глубокий анализ матрицы путаницы и ее связь с бизнес-проблемой. Следовательно, после завершения значений TPR и FPR можно легко отследить соответствующее пороговое значение, которое будет использоваться для окончательного прогнозирования типа клиента (Y_pred). Теперь мы можем понять, как разные бизнес-задачи потребуют разного анализа для правильного построения модели.

Я надеюсь, что вы нашли эту статью интересной и теперь лучше понимаете, как можно использовать матрицы путаницы в реальных бизнес-сценариях. Жду ваших отзывов в комментариях. Я также открыт для любых вопросов, предложений или обсуждений.

Спасибо за чтение.