Feature engineering презентация

Содержание

Слайд 2

Обсуждение

Рассмотрим DataFrame с данными для продажи квартир конкретного дома.

Обсуждение Рассмотрим DataFrame с данными для продажи квартир конкретного дома.

Слайд 3

DataFrame «Недвижимость»

Обсуждение

DataFrame «Недвижимость» Обсуждение

Слайд 4

Обсуждение

Необходимо исследовать DataFrame и выявить факторы, которые влияют на цену недвижимости.
Можно ли это

сделать с помощью имеющихся данных?

Обсуждение Необходимо исследовать DataFrame и выявить факторы, которые влияют на цену недвижимости. Можно

Слайд 5

Обсуждение

Мы привыкли соотносить стоимость с площадью недвижимости, а не с её длиной и

шириной.
Что можно сделать с DataFrame, чтобы работать с ним стало удобнее?

Обсуждение Мы привыкли соотносить стоимость с площадью недвижимости, а не с её длиной

Слайд 6

Добавим в DataFrame столбец «Площадь в кв. м»

Обсуждение

Этот столбец будет вычисляться на основании

данных двух других столбцов.

Добавим в DataFrame столбец «Площадь в кв. м» Обсуждение Этот столбец будет вычисляться

Слайд 7

Обсуждение

Такой подход называется генерацией новых признаков или Feature engineering.

Обсуждение Такой подход называется генерацией новых признаков или Feature engineering.

Слайд 8

Модуль 3. Урок 3. Очистка данных. Feature engineering

Новая тема:
Feature engineering

Модуль 3. Урок 3. Очистка данных. Feature engineering Новая тема: Feature engineering

Слайд 9

Feature engineering

Вычислим, сколько долларов разработчики заработали на каждом платном приложении.
Как это сделать?

Feature engineering Вычислим, сколько долларов разработчики заработали на каждом платном приложении. Как это сделать?

Слайд 10

Создадим столбец Profit

Перемножим количество установок ('Installs') и цену за одно приложение ('Price').

df['Profit'] =

df['Installs'] * df['Price']

Имя нового столбца

Арифметическое действие со столбцами

Feature engineering

Создадим столбец Profit Перемножим количество установок ('Installs') и цену за одно приложение ('Price').

Слайд 11

Количество жанров для всех приложений одинаковое?

Feature engineering

Количество жанров для всех приложений одинаковое? Feature engineering

Слайд 12

Количество жанров

Если жанров несколько, то они разделены ';'

Feature engineering

Количество жанров Если жанров несколько, то они разделены ';' Feature engineering

Слайд 13

Какую новую категорию можно создать на основании столбца с жанрами?
И какую гипотезу можно

проверить на основании новой категории?

Feature engineering

Какую новую категорию можно создать на основании столбца с жанрами? И какую гипотезу

Слайд 14

Новая категория: количество жанров.
Гипотеза: чем больше количество жанров, тем популярнее приложение (больше рейтинг

и количество установок).

Feature engineering

Новая категория: количество жанров. Гипотеза: чем больше количество жанров, тем популярнее приложение (больше

Слайд 15

Значение — это object (текст)

Как посчитать количество жанров?

Art & Design;Pretend Play

Feature engineering

Значение — это object (текст) Как посчитать количество жанров? Art & Design;Pretend Play Feature engineering

Слайд 16

Необходимо сохранить все жанры одного приложения в какую-то структуру, а потом посчитать её

длину.
Какую структуру мы будем использовать?

Feature engineering

Необходимо сохранить все жанры одного приложения в какую-то структуру, а потом посчитать её

Слайд 17

Количество жанров

Список — это структура данных, которая содержит упорядоченный набор элементов.

Feature engineering

Количество жанров Список — это структура данных, которая содержит упорядоченный набор элементов. Feature engineering

Слайд 18

При помощи какого метода можно преобразовать строку в список?

Feature engineering

При помощи какого метода можно преобразовать строку в список? Feature engineering

Слайд 19

s = 'Art & Design;Pretend Play'
s = s.split()
Результат: ['Art', '&', 'Design;Pretend', 'Play']

Метод split()

Если

не задать значения параметров метода, строка будет разделена по пробелам.

Какой параметр необходимо указать, чтобы разделить элементы по ';'?

Feature engineering

s = 'Art & Design;Pretend Play' s = s.split() Результат: ['Art', '&', 'Design;Pretend',

Слайд 20

Метод split()

s = 'Art & Design;Pretend Play'
s = s.split(';')
Результат: ['Art & Design', 'Pretend

Play']

Feature engineering

Метод split() s = 'Art & Design;Pretend Play' s = s.split(';') Результат: ['Art

Слайд 21

При помощи какой функции можно посчитать длину списка?

Feature engineering

При помощи какой функции можно посчитать длину списка? Feature engineering

Слайд 22

Функция len()

len(['Art & Design', 'Pretend Play']) 2

Feature engineering

Функция len() len(['Art & Design', 'Pretend Play']) 2 Feature engineering

Слайд 23

Составим план по созданию нового столбца с количеством жанров.

Feature engineering

Составим план по созданию нового столбца с количеством жанров. Feature engineering

Слайд 24

План по созданию нового столбца

Написать функцию, которая преобразует жанры строки в список.
Применить функцию

для преобразования типа к столбцу при помощи метода apply().
Создать новый столбец, в котором будет храниться количество жанров при помощи метода apply() и встроенной функции len().

Feature engineering

План по созданию нового столбца Написать функцию, которая преобразует жанры строки в список.

Слайд 25

Модуль 3. Урок 3. Очистка данных. Feature engineering

VSC + Платформа. Feature engineering

Модуль 3. Урок 3. Очистка данных. Feature engineering VSC + Платформа. Feature engineering

Слайд 26

mars.algoritmika.org

Выполните практическое задание

Работа
в VS Code

«VSC + Платформа. Feature engineering»

mars.algoritmika.org Выполните практическое задание Работа в VS Code «VSC + Платформа. Feature engineering»

Слайд 27

Завершение
урока

Модуль 3. Урок 3. Очистка данных. Feature engineering

Завершение урока Модуль 3. Урок 3. Очистка данных. Feature engineering

Имя файла: Feature-engineering.pptx
Количество просмотров: 46
Количество скачиваний: 0