Содержание
- 2. Введение В настоящее время на теневых форумах происходит активная купля/продажа дебетовых карт Одна из распространенных схем
- 3. Постановка задачи Исходные данные Выборка постов теневых форумов тематики “Торговля пластиковыми картами”, сформированная на основе парсинга
- 4. Схема выявления постов по угрозе БД - хранение сырых данных теневых форумов Парсинг контента теневых форумов
- 5. Исходные данные
- 6. Разметка данных Разметка данных требует привлечения асессоров. Асессор - человек, знающий предметную область угроз, способный, читая
- 7. Предобработка данных Удаление английских символов Удаление символов разметки Удаление цифр и остальных символов, не являющихся русскими
- 8. Обработка данных Реализация классификатора включает реализацию компонентов: Индексатор текстов Токенизация текстов Нормализация слов Стемминг Лемматизация Взвешивание
- 9. Обучение классификатора Выбранные модели Логистическая регрессия Метод опорных векторов Наивный Байесовский классификатор Метод ближайших соседей Разделение
- 10. Оценка результатов обучения Accuracy (Доля правильных ответов) = (TP+TN)/(TP+TN+FP+FN) Precision (Точность) = TP/(TP+FP) Recall (Полнота) =
- 11. Оценка результатов обучения
- 12. Важность признаков Топ первых 30-признаков, по мнению Метода Опорных Векторов (SVM):
- 14. Скачать презентацию