Лингвистика для математиков презентация

Содержание

Слайд 2

План на жизнь

На следующей паре тест!
Пользоваться можно будет всем кроме соцсетей и соседей

Слайд 3

Дистрибутивная семантика

Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости

между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных.

Слайд 4

Дистрибутивная семантика

Значение слова - это сумма всех его контекстов
Каждое слово\лексическая единица - вектор

Слайд 5

Векторное представление слов

Каждое слово - это вектор
Иначе: word embeddings

Слайд 6

Аналогии

Как вообще мы используем концепт векторного представления для сравнения каких-либо сущностей?

Слайд 7

Аналогии

Слайд 8

Аналогии

Следующий шаг - Расстояние!
С животными мы исследуем Евклидово расстояние:

Слайд 9

Аналогии

Слайд 10

Аналогии

Цвета RGB = вектора в трехмерном пространстве
Красный - (229, 0, 0)
Черный - (0,

0, 0)
Оливковый - (110, 117, 14)

Слайд 11

Аналогии

Слайд 12

Аналогии

Слайд 13

Аналогии

Слайд 14

Аналогии

Слайд 15

Аналогии

Слайд 16

Аналогии

Слайд 17

Аналогии

Слайд 18

Наивный подход

Слайд 19

Наивный подход

Разные виды близости слов: лексическая и семантическая
петух
курица
цыпленок

Слайд 20

Векторное представление слов

One-hot encoding:

Слайд 21

Векторное представление слов

One-hot encoding:

Слайд 22

Как закодировать слово

Счётчик:

Слайд 23

Как обучить компьютер отделять слова?
word2vec

Слайд 24

Embeddings

Слайд 25

Embeddings

Слайд 26

Embeddings

Слайд 27

Embeddings

Слайд 28

Embeddings

Вновь про понятие аналогий:
Кот соотносится с котенком так же, как курица с цыпленком

Слайд 29

Нейронная модель языка

Слайд 30

Нейронная модель языка

Слайд 31

Нейронная модель языка

Слайд 32

Нейронная модель языка

Слайд 33

Обучение модели

Слайд 34

Обучение модели

Слайд 35

Обучение модели

Слайд 36

Обучение модели

Слайд 37

Как работает word2vec?

Обучение модели более формально:
CBOW предсказывает текущее слово, исходя из окружающего его

контекста.
Skip-gram, наоборот, использует текущее слово, чтобы предугадывать окружающие его слова.

Слайд 38

Мешок слов

Слайд 39

Skip-gram

Слайд 40

Skip-gram

Слайд 41

Skip-gram

Слайд 42

Skip-gram

Слайд 43

Skip-gram

Слайд 44

Skip-gram

Слайд 45

Предсказываем слова

Слайд 51

Вместо этого....

Слайд 54

Проблемка

Слайд 57

Ключевые концепты еще раз

Слайд 58

Параметры обучения

Слайд 59

Параметры обучения

Слайд 60

RusVectores

https://rusvectores.org/ru/

Слайд 61

Векторные романы

Ещё давайте посмотрим на векторные романы https://nevmenandr.github.io/novel2vec/

Слайд 62

Пирожки в дистрибутивной семантике

https://habr.com/ru/post/275913/

Слайд 63

Применение

разрешение лексической неоднозначности
информационный поиск
кластеризация документов
машинный перевод
автоматическое формирование словарей (словарей семантических отношений, двуязычных словарей)
создание

семантических карт
моделирование перифраз
определение тематики документа
определение тональности высказывания

Слайд 64

Вопросы к тесту

Слайд 65

Спасибо за внимание!

Имя файла: Лингвистика-для-математиков.pptx
Количество просмотров: 25
Количество скачиваний: 0