Подбор оптимального метода машинного обучения для выявления банковских угроз презентация

Содержание

Слайд 2

Введение В настоящее время на теневых форумах происходит активная купля/продажа

Введение

В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт
Одна

из распространенных схем мошенничества:
На форумах мошенники изъявляют желание продать или купить карты
Как правило, карта используется для вывода средств, украденных в интернет-банке, электронных кошельках, карточных переводах между гражданами.
Теневые форумы также используются для поиска людей, которые будут осуществлять обналичивание
Слайд 3

Постановка задачи Исходные данные Выборка постов теневых форумов тематики “Торговля

Постановка задачи

Исходные данные
Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная

на основе парсинга форумов Dark Net и фильтрации по ключевым словам
Цели
Построить классификатор, идентифицирующий сообщения тематики “Куплю/продам дебетовые карты”
Задачи
Разметить исходные данные
Обработать исходные данные
Проанализировать характеристики представленной выборки
Провести эксперименты сравнения моделей
Выбрать оптимальный метод машинного обучения с лучшим результатом
Слайд 4

Схема выявления постов по угрозе БД - хранение сырых данных

Схема выявления постов по угрозе

БД - хранение сырых данных теневых форумов

Парсинг

контента теневых форумов

Sphinx - система полнотекстового поиска

Выборки по ключевым словам

Разметка

Модуль классификатор

БД - хранение идентифицированных сообщений по теме угрозы

Слайд 5

Исходные данные

Исходные данные

Слайд 6

Разметка данных Разметка данных требует привлечения асессоров. Асессор - человек,

Разметка данных

Разметка данных требует привлечения асессоров.
Асессор - человек, знающий предметную

область угроз, способный, читая сообщение, определить, можно ли отнести пост к угрозе.
Правила, по которым он это делает, называются манифестом разметки.
Манифест разметки представляет собой семантический портрет угрозы, включающий в себя цель сообщения, варианты подачи информации и первичный словарь.
Итоговая выборка состоит из 1500 постов.
Помеченных угрозой постов: 444.
Слайд 7

Предобработка данных Удаление английских символов Удаление символов разметки Удаление цифр

Предобработка данных

Удаление английских символов
Удаление символов разметки
Удаление цифр и остальных символов, не

являющихся русскими буквами
Слайд 8

Обработка данных Реализация классификатора включает реализацию компонентов: Индексатор текстов Токенизация

Обработка данных

Реализация классификатора включает реализацию компонентов:
Индексатор текстов
Токенизация текстов
Нормализация слов
Стемминг
Лемматизация
Взвешивание слов
Включение n-грамм
Счетчик

слов (Count Vectorizer)
TF-IDF
Слайд 9

Обучение классификатора Выбранные модели Логистическая регрессия Метод опорных векторов Наивный

Обучение классификатора

Выбранные модели
Логистическая регрессия
Метод опорных векторов
Наивный Байесовский классификатор
Метод ближайших соседей
Разделение выборки
Обучающая

(⅔ выборки)
Тестовая (⅓ выборки)
Этапы построения классификатора
Обучение классификатора на обучающей выборке
Тестирование классификатора на тестовой выборке
Слайд 10

Оценка результатов обучения Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN) Precision

Оценка результатов обучения

Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)
Precision (Точность) = TP/(TP+FP)
Recall

(Полнота) = TP/(TP+FN)
F1-Score=((1+a2)*Precision*Recall)/(a2*Precision+Recall)
Слайд 11

Оценка результатов обучения

Оценка результатов обучения

Слайд 12

Важность признаков Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):

Важность признаков

Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):

Имя файла: Подбор-оптимального-метода-машинного-обучения-для-выявления-банковских-угроз.pptx
Количество просмотров: 85
Количество скачиваний: 0