Подбор оптимального метода машинного обучения для выявления банковских угроз презентация

Содержание

Слайд 2

Введение

В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт
Одна из распространенных

схем мошенничества:
На форумах мошенники изъявляют желание продать или купить карты
Как правило, карта используется для вывода средств, украденных в интернет-банке, электронных кошельках, карточных переводах между гражданами.
Теневые форумы также используются для поиска людей, которые будут осуществлять обналичивание

Слайд 3

Постановка задачи

Исходные данные
Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная на основе

парсинга форумов Dark Net и фильтрации по ключевым словам
Цели
Построить классификатор, идентифицирующий сообщения тематики “Куплю/продам дебетовые карты”
Задачи
Разметить исходные данные
Обработать исходные данные
Проанализировать характеристики представленной выборки
Провести эксперименты сравнения моделей
Выбрать оптимальный метод машинного обучения с лучшим результатом

Слайд 4

Схема выявления постов по угрозе

БД - хранение сырых данных теневых форумов

Парсинг контента теневых

форумов

Sphinx - система полнотекстового поиска

Выборки по ключевым словам

Разметка

Модуль классификатор

БД - хранение идентифицированных сообщений по теме угрозы

Слайд 5

Исходные данные

Слайд 6

Разметка данных

Разметка данных требует привлечения асессоров.
Асессор - человек, знающий предметную область угроз,

способный, читая сообщение, определить, можно ли отнести пост к угрозе.
Правила, по которым он это делает, называются манифестом разметки.
Манифест разметки представляет собой семантический портрет угрозы, включающий в себя цель сообщения, варианты подачи информации и первичный словарь.
Итоговая выборка состоит из 1500 постов.
Помеченных угрозой постов: 444.

Слайд 7

Предобработка данных

Удаление английских символов
Удаление символов разметки
Удаление цифр и остальных символов, не являющихся русскими

буквами

Слайд 8

Обработка данных

Реализация классификатора включает реализацию компонентов:
Индексатор текстов
Токенизация текстов
Нормализация слов
Стемминг
Лемматизация
Взвешивание слов
Включение n-грамм
Счетчик слов (Count

Vectorizer)
TF-IDF

Слайд 9

Обучение классификатора

Выбранные модели
Логистическая регрессия
Метод опорных векторов
Наивный Байесовский классификатор
Метод ближайших соседей
Разделение выборки
Обучающая (⅔ выборки)
Тестовая

(⅓ выборки)
Этапы построения классификатора
Обучение классификатора на обучающей выборке
Тестирование классификатора на тестовой выборке

Слайд 10

Оценка результатов обучения

Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)
Precision (Точность) = TP/(TP+FP)
Recall (Полнота) =

TP/(TP+FN)
F1-Score=((1+a2)*Precision*Recall)/(a2*Precision+Recall)

Слайд 11

Оценка результатов обучения

Слайд 12

Важность признаков

Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):

Имя файла: Подбор-оптимального-метода-машинного-обучения-для-выявления-банковских-угроз.pptx
Количество просмотров: 77
Количество скачиваний: 0