Подбор оптимального метода машинного обучения для выявления банковских угроз презентация

Август 1, 2021

Главная
Информатика
Подбор оптимального метода машинного обучения для выявления банковских угроз

Содержание

2. Введение В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт Одна из распространенных схем
3. Постановка задачи Исходные данные Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная на основе парсинга
4. Схема выявления постов по угрозе БД - хранение сырых данных теневых форумов Парсинг контента теневых форумов
5. Исходные данные
6. Разметка данных Разметка данных требует привлечения асессоров. Асессор - человек, знающий предметную область угроз, способный, читая
7. Предобработка данных Удаление английских символов Удаление символов разметки Удаление цифр и остальных символов, не являющихся русскими
8. Обработка данных Реализация классификатора включает реализацию компонентов: Индексатор текстов Токенизация текстов Нормализация слов Стемминг Лемматизация Взвешивание
9. Обучение классификатора Выбранные модели Логистическая регрессия Метод опорных векторов Наивный Байесовский классификатор Метод ближайших соседей Разделение
10. Оценка результатов обучения Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN) Precision (Точность) = TP/(TP+FP) Recall (Полнота) =
11. Оценка результатов обучения
12. Важность признаков Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):
14. Скачать презентацию

Слайд 2

Введение
В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт
Одна

из распространенных схем мошенничества:
На форумах мошенники изъявляют желание продать или купить карты
Как правило, карта используется для вывода средств, украденных в интернет-банке, электронных кошельках, карточных переводах между гражданами.
Теневые форумы также используются для поиска людей, которые будут осуществлять обналичивание

Слайд 3

Постановка задачи
Исходные данные
Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная

на основе парсинга форумов Dark Net и фильтрации по ключевым словам
Цели
Построить классификатор, идентифицирующий сообщения тематики “Куплю/продам дебетовые карты”
Задачи
Разметить исходные данные
Обработать исходные данные
Проанализировать характеристики представленной выборки
Провести эксперименты сравнения моделей
Выбрать оптимальный метод машинного обучения с лучшим результатом

Слайд 4

Схема выявления постов по угрозе
БД - хранение сырых данных теневых форумов
Парсинг

контента теневых форумов

Sphinx - система полнотекстового поиска

Выборки по ключевым словам

Разметка

Модуль классификатор

БД - хранение идентифицированных сообщений по теме угрозы

Слайд 5

Исходные данные

Слайд 6

Разметка данных
Разметка данных требует привлечения асессоров.
Асессор - человек, знающий предметную

область угроз, способный, читая сообщение, определить, можно ли отнести пост к угрозе.
Правила, по которым он это делает, называются манифестом разметки.
Манифест разметки представляет собой семантический портрет угрозы, включающий в себя цель сообщения, варианты подачи информации и первичный словарь.
Итоговая выборка состоит из 1500 постов.
Помеченных угрозой постов: 444.

Слайд 7

Предобработка данных
Удаление английских символов
Удаление символов разметки
Удаление цифр и остальных символов, не

являющихся русскими буквами

Слайд 8

Обработка данных
Реализация классификатора включает реализацию компонентов:
Индексатор текстов
Токенизация текстов
Нормализация слов
Стемминг
Лемматизация
Взвешивание слов
Включение n-грамм
Счетчик

слов (Count Vectorizer)
TF-IDF

Слайд 9

Обучение классификатора
Выбранные модели
Логистическая регрессия
Метод опорных векторов
Наивный Байесовский классификатор
Метод ближайших соседей
Разделение выборки
Обучающая

(⅔ выборки)
Тестовая (⅓ выборки)
Этапы построения классификатора
Обучение классификатора на обучающей выборке
Тестирование классификатора на тестовой выборке

Слайд 10

Оценка результатов обучения
Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)
Precision (Точность) = TP/(TP+FP)
Recall

(Полнота) = TP/(TP+FN)
F1-Score=((1+a2)*Precision*Recall)/(a2*Precision+Recall)

Слайд 11

Оценка результатов обучения

Слайд 12

Подбор оптимального метода машинного обучения для выявления банковских угроз презентация

Содержание

ВведениеВ настоящее время на теневых форумах происходит активная купля/продажа дебетовых картОдна

Постановка задачиИсходные данныеВыборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная

Схема выявления постов по угрозеБД - хранение сырых данных теневых форумовПарсинг

Исходные данные

Разметка данныхРазметка данных требует привлечения асессоров. Асессор - человек, знающий предметную

Предобработка данныхУдаление английских символовУдаление символов разметкиУдаление цифр и остальных символов, не

Оценка результатов обученияAccuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN)Precision (Точность) = TP/(TP+FP)Recall