Модели CatBoost в ClickHouse презентация

Июль 29, 2022

Главная
Информатика
Модели CatBoost в ClickHouse

Содержание

2. Применение моделей CatBoost в ClickHouse Николай Кочетов ClickHouse
3. ClickHouse - distributed analytical column-oriented DBMS Что такое ClickHouse?
4. Почему column-oriented? Так работают row-oriented системы:
5. Так работают column-oriented системы: Почему column-oriented?
6. column-oriented линейная масштабируемость отказоустойчивость загрузка данных в реальном времени онлайн (sub-second) запросы поддержка диалекта SQL +
7. Предсказание вероятности покупки
8. Задача Узнать больше информации про пользователей Цель По поведению пользователей в прошлом, предсказывать их поведение в
9. Рабочий процесс Сбор данных Обучение модели Production process Предсказание вероятности покупки Построение выборки и оценка качества
10. Используем данные Яндекс.Метрики из Logs API Сырые данные по хитам и визитам Предыдущие покупки Состояние корзины
11. Вычисление признаков Можем использовать более 60 характеристик Характеристики пользователя: Устройство, браузер, регион Поведение: Источники трафика, доход,
12. Храним данные в ClickHouse в неагрегированном виде Можем получить (почти) любые признаки Например, средняя длительность сессии:
13. Собрали выборку и обучили несколько различных моделей: SVM Logistic Regression Random Forest XGBoost CatBoost Обучение моделей
14. В результате обучения получили модель и набор скриптов. Как с этим жить? Внедрение обученной модели
15. Наводим порядок в куче скриптов: Выгружаем данные раз в неделю (каждый понедельник) Применяем модель также, как
16. Преимущества Просто, быстро, эффективно. Часть кода уже написана. Полезно. Пригодится при переобучении. Недостатки Загрузка и выгрузка
17. План работ Смотрим, как устроена модель Переносим процесс применения в хранилище данных Избавляемся от загрузки и
18. Какие алгоритмы можем перенести в СУБД? Способ 2: препарируем модель
19. Линейные классификаторы Тривиально Логистическая регрессия Результаты на тестовой выборке ROC AUC: 0.917 0.44 sec. 441497 rows/sec.
20. Дерево принятия решений Вкладываем дерево в цепочку вызовов условных функций Способ 2: препарируем модель SELECT if(petal_width
21. Лес, бустинг — набор деревьев Random Forest, 100 деревьев глубины 3 Результаты на тестовой выборке ROC
22. Небольшой лес из 100 деревьев Способ 2: препарируем модель
23. Недостатки Сложность преобразования модели в запрос Ограниченная применимость Не для всех алгоритмов машинного обучения Ограничения со
24. Используем библиотеку машинного обучения внутри базы Перекладываем на базу работу по преобразованию данных Применяем модель как
25. Преимущества Те же, что и у предыдущего способа, но Нет неоправданных проблем с производительностью Основная работа
26. CatBoost, 100 деревьев глубины 6 Результаты на тестовой выборке ROC AUC: 0.932 3.96 sec. 19467 rows/sec.
27. Способ 3: встраиваем применение в базу Результаты
28. Интеграция ClickHouse и CatBoost
29. Описываем конфигурацию модели Модели CatBoost в ClickHouse catboost purchase_model clickhouse/models/model.cbm 0
30. Описываем конфигурацию модели В config.xml добавляем путь к конфигурации и путь к CatBoost Модели CatBoost в
31. Описываем конфигурацию модели В config.xml добавляем путь к конфигурации и путь к CatBoost Используем функцию modelEvaluate('model_name',
32. Формат входных данных для обучения CatBoost — CatBoost Pool Описание столбцов — TSV файл вида Пример
33. Чтобы быстро протестировать работу обученной модели в ClickHouse, добавлена возможность читать данные сразу из пула CatBoost.
34. Чтение из CatBoost Pool Описание столбцов пула CatBoost: Описание столбцов в catBoostPool 0 Categ is_yabrowser 1
35. Чтение из CatBoost Pool Описание столбцов пула CatBoost: Описание столбцов в catBoostPool 0 Categ is_yabrowser 1
36. Предсказываем вероятность покупки Использование обученной модели SELECT modelEvaluate('purchase_model', *) AS prediction, 1. / (1. + exp(-prediction))
37. Считаем ошибку на тестовой выборке по метрике Logloss Использование обученной модели SELECT -avg((Target * log(prob)) +
38. Использование обученной модели
39. Интеграция ClickHouse и CatBoost Применение обученных моделей Чтение данных из пула Дальнейшие планы Другие форматы моделей
41. Скачать презентацию

Слайд 2

Применение моделей CatBoost в ClickHouse
Николай Кочетов
ClickHouse

Слайд 3

ClickHouse - distributed analytical column-oriented DBMS
Что такое ClickHouse?

Слайд 4

Почему column-oriented?
Так работают row-oriented системы:

Слайд 5

Так работают column-oriented системы:
Почему column-oriented?

Слайд 6

column-oriented
линейная масштабируемость
отказоустойчивость
загрузка данных в реальном времени
онлайн (sub-second) запросы
поддержка диалекта SQL +

расширения (массивы, вложенные структуры данных, domain-specific функции, сэмплирование)

Особенности ClickHouse

Слайд 7

Предсказание вероятности покупки

Слайд 8

Задача
Узнать больше информации про пользователей
Цель
По поведению пользователей в прошлом, предсказывать их

поведение в будущем. Например, ответить на вопрос — с какой вероятностью пользователь совершит заказ.

Предсказание вероятности покупки

Слайд 9

Рабочий процесс
Сбор данных
Обучение модели
Production process
Предсказание вероятности покупки
Построение выборки и оценка качества
Вычисление

признаков

Слайд 10

Используем данные Яндекс.Метрики из Logs API
Сырые данные по хитам и визитам
Предыдущие

покупки
Состояние корзины
Посещения страниц с описанием товара
Загружаем данные в ClickHouse

Сбор данных

Слайд 11

Вычисление признаков
Можем использовать более 60 характеристик
Характеристики пользователя:
Устройство, браузер, регион
Поведение:
Источники

трафика, доход, был ли последний визит отказом и т.д.

Слайд 12

Храним данные в ClickHouse в неагрегированном виде
Можем получить (почти) любые признаки
Например,

средняя длительность сессии:

Вычисление признаков

SELECT
avg(Duration) as avg_duration
FROM visits_all SAMPLE 1/10 OFFSET 2/10
WHERE StartDate BETWEEN '{start_date}' AND '{end_date}'
GROUP BY FirstPartyCookie

Слайд 13

Собрали выборку и обучили несколько различных моделей:
SVM
Logistic Regression
Random Forest
XGBoost
CatBoost
Обучение моделей

Слайд 14

В результате обучения получили модель и набор скриптов.
Как с этим жить?
Внедрение

обученной модели

Слайд 15

Наводим порядок в куче скриптов:
Выгружаем данные раз в неделю (каждый понедельник)
Применяем

модель также, как и тестировали
Загружаем вероятность покупки в таблицу ClickHouse

Способ 1: Используем код из обучения

Слайд 16

Преимущества
Просто, быстро, эффективно. Часть кода уже написана.
Полезно. Пригодится при переобучении.
Недостатки
Загрузка и

выгрузка данных. Может тормозить.
Заранее готовим ответы. Сложно получить ответ для произвольного периода.

Способ 1: Используем код из обучения

Слайд 17

План работ
Смотрим, как устроена модель
Переносим процесс применения в хранилище данных
Избавляемся от

загрузки и выгрузки данных
Чего сможем добиться?
Избавимся от перекладывания данных
Будем работать с произвольным множеством данных
Применение модели — запрос в базу

Способ 2: препарируем модель

Слайд 18

Какие алгоритмы можем перенести в СУБД?
Способ 2: препарируем модель

Слайд 19

Линейные классификаторы
Тривиально
Логистическая регрессия
Результаты на тестовой выборке
ROC AUC: 0.917
0.44 sec.

441497 rows/sec. 63.16 MiB/sec.

Способ 2: препарируем модель

SELECT ((feature1 * w1) + ... + (featureN * wN)) > threshold
FROM table

Слайд 20

Дерево принятия решений
Вкладываем дерево в цепочку вызовов условных функций
Способ 2: препарируем

модель

SELECT
if(petal_width <= 0.8,
'setosa',
if(petal_width <= 1.75,
'versicolor',
'virginica'))
FROM iris

Слайд 21

Лес, бустинг — набор деревьев
Random Forest, 100 деревьев глубины 3
Результаты на

тестовой выборке
ROC AUC: 0.917 (0.923 для глубины 6)
2.54 sec. 59450 rows/sec. 1.59 MiB/sec.

Способ 2: препарируем модель

SELECT arrayReduce('avg',[if(...), ..., if(...)])

Слайд 22

Небольшой лес из 100 деревьев
Способ 2: препарируем модель

Слайд 23

Недостатки
Сложность преобразования модели в запрос
Ограниченная применимость
Не для всех алгоритмов машинного обучения
Ограничения

со стороны СУБД
Проблемы с производительностью

Способ 2: препарируем модель

Слайд 24

Используем библиотеку машинного обучения внутри базы
Перекладываем на базу работу по преобразованию

данных
Применяем модель как вызов встроенной функции

Способ 3: встраиваем применение в базу

SELECT modelEvaluate('iris', sepal_width, petal_width)
FROM iris

Слайд 25

Преимущества
Те же, что и у предыдущего способа, но
Нет неоправданных проблем с

производительностью
Основная работа — на базе данных
Оптимизация работы внутри библиотеки машинного обучения
Недостатки
База должна поддерживать работу с конкретным алгоритмом
Различия в версиях и форматах хранения

Способ 3: встраиваем применение в базу

Слайд 26

CatBoost, 100 деревьев глубины 6
Результаты на тестовой выборке
ROC AUC: 0.932

3.96 sec. 19467 rows/sec. 2.78 MiB/sec.
XGBoost
Результаты на тестовой выборке
1000 деревьев глубины 3 — ROC AUC: 0.929

Способ 3: встраиваем применение в базу

Слайд 27

Способ 3: встраиваем применение в базу
Результаты

Слайд 28

Интеграция ClickHouse и CatBoost

Слайд 29

Описываем конфигурацию модели
Модели CatBoost в ClickHouse

catboost

purchase_model

clickhouse/models/model.cbm

0

Слайд 30

Описываем конфигурацию модели
В config.xml добавляем путь к конфигурации и путь к

CatBoost

Модели CatBoost в ClickHouse

/path/to/libcatboostmodel.so

clickhouse/models/model*.xml

Слайд 31

Описываем конфигурацию модели
В config.xml добавляем путь к конфигурации и путь к

CatBoost
Используем функцию modelEvaluate('model_name', feature1, ..., featureN)
Сначала перечисляем числовые признаки, затем категориальные.

Модели CatBoost в ClickHouse

SELECT
modelEvaluate('purchase_model', ...) AS prediction
FROM table

Слайд 32

Формат входных данных для обучения CatBoost — CatBoost Pool
Описание столбцов —

TSV файл вида Пример для двух признаков и Target
Описание датасета — TSV файл с данными

Чтение из CatBoost Pool

0 Categ is_yabrowser
1 Num viewed_products
2 Target

column_id data_type feature_id (optional)

Слайд 33

Чтобы быстро протестировать работу обученной модели в ClickHouse, добавлена возможность читать

данные сразу из пула CatBoost.
Табличная функция catBoostPool.
Параметры — пути к файлам с описанием столбцов и датасета.
catBoostPool('/path/to/column/description', '/path/to/dataset/description')
Создает временную таблицу с движком File('TSV').
Файлы должны находиться в директории данных сервера.

Чтение из CatBoost Pool

Слайд 34

Чтение из CatBoost Pool
Описание столбцов пула CatBoost:
Описание столбцов в catBoostPool
0 Categ is_yabrowser
1 Num viewed_products
2 Target
DESCRIBE TABLE

catBoostPool('test.cd', 'test.csv')
┌─name────────────┬─type────┬─default_type─┬──────────┐
│ Num0 │ Float64 │ │ │
│ Categ0 │ String │ │ │
│ Target │ Float64 │ │ │
│ is_yabrowser │ String │ ALIAS │ Categ0 │
│ viewed_products │ Float64 │ ALIAS │ Num0 │
└─────────────────┴─────────┴──────────────┴──────────┘

Слайд 35

Чтение из CatBoost Pool
Описание столбцов пула CatBoost:
Описание столбцов в catBoostPool
0 Categ is_yabrowser
1 Num viewed_products
2 Target
DESCRIBE TABLE

(
SELECT *
FROM catBoostPool('test.cd', 'test.csv')
)
┌─name───┬─type────┬─default_type─┬─default_expression─┐
│ Num0 │ Float64 │ │ │
│ Categ0 │ String │ │ │
└────────┴─────────┴──────────────┴────────────────────┘

Слайд 36

Предсказываем вероятность покупки
Использование обученной модели
SELECT
modelEvaluate('purchase_model', *) AS prediction,

1. / (1. + exp(-prediction)) AS probability
FROM catBoostPool('test.cd', 'test.csv')

Слайд 37

Считаем ошибку на тестовой выборке по метрике Logloss
Использование обученной модели
SELECT -avg((Target

* log(prob)) +
((1. - Target) * log(1. - prob))) AS logloss
FROM
(
SELECT
modelEvaluate('purchase_model', *) AS pred,
1. / (1. + exp(-pred)) AS prob,
Target
FROM catBoostPool('test.cd', 'test.csv')
)
┌─────────────logloss─┐
│ 0.03719106223177089 │
└─────────────────────┘

Слайд 38

Использование обученной модели

Слайд 39

Интеграция ClickHouse и CatBoost
Применение обученных моделей
Чтение данных из пула
Дальнейшие планы
Другие форматы

моделей
Встроенное обучение моделей — ?

Итоги

Модели CatBoost в ClickHouse презентация

Содержание

Применение моделей CatBoost в ClickHouseНиколай КочетовClickHouse

ClickHouse - distributed analytical column-oriented DBMSЧто такое ClickHouse?

Почему column-oriented?Так работают row-oriented системы:

Так работают column-oriented системы:Почему column-oriented?

column-orientedлинейная масштабируемостьотказоустойчивостьзагрузка данных в реальном временионлайн (sub-second) запросыподдержка диалекта SQL +

Предсказание вероятности покупки

ЗадачаУзнать больше информации про пользователейЦельПо поведению пользователей в прошлом, предсказывать их

Рабочий процессСбор данныхОбучение моделиProduction processПредсказание вероятности покупкиПостроение выборки и оценка качестваВычисление

Используем данные Яндекс.Метрики из Logs APIСырые данные по хитам и визитамПредыдущие

Вычисление признаковМожем использовать более 60 характеристикХарактеристики пользователя: Устройство, браузер, регионПоведение: Источники

Храним данные в ClickHouse в неагрегированном видеМожем получить (почти) любые признакиНапример,

Собрали выборку и обучили несколько различных моделей:SVMLogistic RegressionRandom ForestXGBoostCatBoostОбучение моделей

В результате обучения получили модель и набор скриптов.Как с этим жить?Внедрение

Наводим порядок в куче скриптов:Выгружаем данные раз в неделю (каждый понедельник)Применяем

ПреимуществаПросто, быстро, эффективно. Часть кода уже написана.Полезно. Пригодится при переобучении.НедостаткиЗагрузка и

План работСмотрим, как устроена модельПереносим процесс применения в хранилище данныхИзбавляемся от

Какие алгоритмы можем перенести в СУБД?Способ 2: препарируем модель

Линейные классификаторыТривиальноЛогистическая регрессияРезультаты на тестовой выборке ROC AUC: 0.917 0.44 sec.

Дерево принятия решенийВкладываем дерево в цепочку вызовов условных функцийСпособ 2: препарируем

Лес, бустинг — набор деревьевRandom Forest, 100 деревьев глубины 3Результаты на

Небольшой лес из 100 деревьевСпособ 2: препарируем модель

НедостаткиСложность преобразования модели в запросОграниченная применимостьНе для всех алгоритмов машинного обученияОграничения

Используем библиотеку машинного обучения внутри базыПерекладываем на базу работу по преобразованию

ПреимуществаТе же, что и у предыдущего способа, ноНет неоправданных проблем с

CatBoost, 100 деревьев глубины 6Результаты на тестовой выборке ROC AUC: 0.932

Способ 3: встраиваем применение в базуРезультаты

Интеграция ClickHouse и CatBoost

Описываем конфигурацию моделиМодели CatBoost в ClickHouse catboost purchase_model clickhouse/models/model.cbm 0

Описываем конфигурацию моделиВ config.xml добавляем путь к конфигурации и путь к

Описываем конфигурацию моделиВ config.xml добавляем путь к конфигурации и путь к

Формат входных данных для обучения CatBoost — CatBoost PoolОписание столбцов —

Чтобы быстро протестировать работу обученной модели в ClickHouse, добавлена возможность читать

Чтение из CatBoost PoolОписание столбцов пула CatBoost:Описание столбцов в catBoostPool0 Categ is_yabrowser1 Num viewed_products2 TargetDESCRIBE TABLE

Чтение из CatBoost PoolОписание столбцов пула CatBoost:Описание столбцов в catBoostPool0 Categ is_yabrowser1 Num viewed_products2 TargetDESCRIBE TABLE

Предсказываем вероятность покупкиИспользование обученной моделиSELECT modelEvaluate('purchase_model', *) AS prediction,

Считаем ошибку на тестовой выборке по метрике LoglossИспользование обученной моделиSELECT -avg((Target

Использование обученной модели

Интеграция ClickHouse и CatBoostПрименение обученных моделейЧтение данных из пулаДальнейшие планыДругие форматы

Похожие презентации

Применение моделей CatBoost в ClickHouse
Николай Кочетов
ClickHouse

ClickHouse - distributed analytical column-oriented DBMS
Что такое ClickHouse?

Почему column-oriented?
Так работают row-oriented системы:

Так работают column-oriented системы:
Почему column-oriented?

column-oriented
линейная масштабируемость
отказоустойчивость
загрузка данных в реальном времени
онлайн (sub-second) запросы
поддержка диалекта SQL +

Задача
Узнать больше информации про пользователей
Цель
По поведению пользователей в прошлом, предсказывать их

Рабочий процесс
Сбор данных
Обучение модели
Production process
Предсказание вероятности покупки
Построение выборки и оценка качества
Вычисление

Используем данные Яндекс.Метрики из Logs API
Сырые данные по хитам и визитам
Предыдущие

Вычисление признаков
Можем использовать более 60 характеристик
Характеристики пользователя:
Устройство, браузер, регион
Поведение:
Источники

Храним данные в ClickHouse в неагрегированном виде
Можем получить (почти) любые признаки
Например,

Собрали выборку и обучили несколько различных моделей:
SVM
Logistic Regression
Random Forest
XGBoost
CatBoost
Обучение моделей

В результате обучения получили модель и набор скриптов.
Как с этим жить?
Внедрение

Наводим порядок в куче скриптов:
Выгружаем данные раз в неделю (каждый понедельник)
Применяем

Преимущества
Просто, быстро, эффективно. Часть кода уже написана.
Полезно. Пригодится при переобучении.
Недостатки
Загрузка и

План работ
Смотрим, как устроена модель
Переносим процесс применения в хранилище данных
Избавляемся от

Какие алгоритмы можем перенести в СУБД?
Способ 2: препарируем модель

Линейные классификаторы
Тривиально
Логистическая регрессия
Результаты на тестовой выборке
ROC AUC: 0.917
0.44 sec.

Дерево принятия решений
Вкладываем дерево в цепочку вызовов условных функций
Способ 2: препарируем

Лес, бустинг — набор деревьев
Random Forest, 100 деревьев глубины 3
Результаты на

Небольшой лес из 100 деревьев
Способ 2: препарируем модель

Недостатки
Сложность преобразования модели в запрос
Ограниченная применимость
Не для всех алгоритмов машинного обучения
Ограничения

Используем библиотеку машинного обучения внутри базы
Перекладываем на базу работу по преобразованию

Преимущества
Те же, что и у предыдущего способа, но
Нет неоправданных проблем с

CatBoost, 100 деревьев глубины 6
Результаты на тестовой выборке
ROC AUC: 0.932

Способ 3: встраиваем применение в базу
Результаты

Описываем конфигурацию модели
Модели CatBoost в ClickHouse

catboost

purchase_model

clickhouse/models/model.cbm

0

Описываем конфигурацию модели
В config.xml добавляем путь к конфигурации и путь к

Описываем конфигурацию модели
В config.xml добавляем путь к конфигурации и путь к

Формат входных данных для обучения CatBoost — CatBoost Pool
Описание столбцов —

Чтение из CatBoost Pool
Описание столбцов пула CatBoost:
Описание столбцов в catBoostPool
0 Categ is_yabrowser
1 Num viewed_products
2 Target
DESCRIBE TABLE

Чтение из CatBoost Pool
Описание столбцов пула CatBoost:
Описание столбцов в catBoostPool
0 Categ is_yabrowser
1 Num viewed_products
2 Target
DESCRIBE TABLE

Предсказываем вероятность покупки
Использование обученной модели
SELECT
modelEvaluate('purchase_model', *) AS prediction,

Считаем ошибку на тестовой выборке по метрике Logloss
Использование обученной модели
SELECT -avg((Target

Интеграция ClickHouse и CatBoost
Применение обученных моделей
Чтение данных из пула
Дальнейшие планы
Другие форматы