Лингвистика для математиков. Исправление опечаток 1 презентация

Август 3, 2022

Главная
Лингвистика
Лингвистика для математиков. Исправление опечаток 1

Содержание

2. Удивительно, но начнём мы сегодня с задачи В автоматической обработке естественного языка (например, при автоматической проверке
4. Задание 1. Заполните пропуски. Задание 2. Дайте определение расстоянию Дамерау–Левенштейна и предположите, какие классы опечаток выделил
5. Изначальная идея
6. Что такое spell checker Софт/программа, которая проверяет текст на наличие опечаток Задачи Поиск опечаток Исправление опечаток:
7. Применение
8. Just a really old meme
9. Виды опечаток Non-word errors Real world errors Когнитивные ошибки Ошибки при записи речи “на слух” Ошибки
10. Задание. 1913 год - не тот мир
11. Работа с real word опечатками Для каждого слова w генерируем список кандидатов: • Ищем кандидатов с
12. Работа с non-word опечатками Поиск non-word опечаток: Составляем словарь. Если слово не в словаре → это
13. Методом составления словаря
14. Работа с non-word опечатками Поиск non-word опечаток: Составляем словарь. Если слово не в словаре → это
15. Методом Bk-tress Преобразуем словарь в дерево Корень - случайное слово из словаря Слова из словаря связываются
16. Bk-tress
17. Что такое “близкие слова” Можно искать близкие слова в словаре Для этого нужно задать функцию расстояния
18. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
19. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
20. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
21. Модель близости слов Формальное определение: Расстояние Левенштейна p(u, v) между словами u и v -- минимальное
22. Модель близости слов d(montagne, mountain) = 3 Посчитали количество необходимых операций
23. Вычисление расстояния Левенштейна Введём обозначения: w = w[0] ... w[n-1] -- слово, где |w| = n
24. Вычисление расстояния Левенштейна Введём обозначения: w = w[0] ... w[n-1] -- слово, где |w| = n
25. Вычисление расстояние Левенштейна Разделяй и властвуй Какие есть подзадачи
26. Вычисление расстояние Левенштейна То же самое в виде таблицы yabxe → abcde
27. Формула расстояния Левенштейна
28. Вычисление расстояние Левенштейна Посчитайте расстояние между соль Vs. волос с помощью таблицы Какое расстояние будет между
29. Оптимальное выравнивание Это путь по таблице, который приводит к преобразованию одной строки в другую с минимальным
30. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла?
31. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
32. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
33. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
34. Модель близости слов Еще раз как же выглядит модель по поиску ошибок и их исправлению этой
35. Модель близости слов Еще раз как же выглядит модель по поиску ошибок и их исправлению этой
36. Взвешенное расстояние Левенштейна Как же определять веса? Можем условно считать, что вес - это вероятность опечатки
37. Кстати, про фонетическую близость обычно в алгоритмах с метриками расстояния кандидатами в итоге считаются слова, которые
38. Soundex
39. Дан список фамилий и соответствующих им кодов Soundex в перепутанном порядке. Некоторые символы пропущены: Allaway, Anderson,
40. Soundex Задание 1. Опишите пошагово, как генерируется код Soundex. Задание 2. Установите соответствия между фамилиями и
41. Всем спасибо
43. Скачать презентацию

Слайд 2

Удивительно, но начнём мы сегодня с задачи
В автоматической обработке естественного языка

(например, при автоматической проверке орфографии) часто бывает нужно определить, насколько различны два написанных слова. Одна из количественных мер, используемых для этого, называется расстоянием Дамерау–Левенштейна — в честь Владимира Левенштейна и Фредерика Дамерау. Левенштейн придумал способ измерения «расстояний» между словами, а Дамерау независимо от него выделил несколько классов, в которые попадает большинство опечаток.

Слайд 3

Слайд 4

Задание 1. Заполните пропуски.
Задание 2. Дайте определение расстоянию Дамерау–Левенштейна и предположите,

какие классы опечаток выделил Дамерау.
Задание 3. Даны два слова с длинами m и n (m > n). Каково максимально возможное расстояние Дамерау–Левенштейна между этими словами? Минимально возможное? (Выразите ответы через m и n).

Слайд 5

Изначальная идея

Слайд 6

Что такое spell checker
Софт/программа, которая проверяет текст на наличие опечаток
Задачи
Поиск опечаток
Исправление

опечаток:
Автокоррекция (типа Т9)
Предлагать исправление
Предлагать варианты исправлений

Слайд 7

Применение

Слайд 8

Just a really old meme

Слайд 9

Виды опечаток
Non-word errors
Real world errors
Когнитивные ошибки
Ошибки при записи речи “на слух”
Ошибки

при транслитерации
Сокращения, слэнг
Намеренные опечатки

Слайд 10

Задание. 1913 год - не тот мир

Слайд 11

Работа с real word опечатками
Для каждого слова w генерируем список кандидатов:

• Ищем кандидатов с похожим произношением
• Ищем кандидатов с похожим написанием
Выбираем лучшего кандидата. Как?
• алгоритм Noisy Channel
• классификатор

Слайд 12

Работа с non-word опечатками
Поиск non-word опечаток:
Составляем словарь.
Если слово не в словаре

→ это опечатка.
Чем больше словарь, тем лучше
Исправление non-word опечаток:
Сгенерировать кандидатов реальных слов (из словаря) близких по буквам к опечатке.
Выбрать лучшего кандидата

Слайд 13

Методом составления словаря

Слайд 14

Работа с non-word опечатками
Поиск non-word опечаток:
Составляем словарь.
Если слово не в словаре

Слайд 15

Методом Bk-tress
Преобразуем словарь в дерево
Корень - случайное слово из словаря
Слова из

словаря связываются с корнем в дерево, на связях указано
расстояние между словами по какой-нибудь метрике
Approximate string matching
Не надо сравнивать искомое слово с каждым словом в словаре → быстрее наивного метода

Слайд 16

Bk-tress

Слайд 17

Что такое “близкие слова”
Можно искать близкие слова в словаре
Для этого нужно

задать функцию расстояния на множестве слов

Слайд 18

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Vs. Алина = 1 Karolin Vs. Kerstin = 3 01101 Vs. 00100 = 2
NB: Расстояния работают для любых строк/последовательностей, не только для слов

Слайд 19

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Vs. Алина = 1 Karolin Vs. Kerstin = 3
расстояние Левенштейна и Дамерау–Левенштейна = количество необходимых замен, удалений вставок
kitten Vs. sitting = 3
kitten → sitten (substitution of "s" for "k") sitten → sittin (substitution of "i" for "e") sittin → sitting (insertion of "g" at the end)

Слайд 20

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Vs. Алина = 1 Karolin Vs. Kerstin = 3
расстояние Левенштейна и Дамерау–Левенштейна = количество необходимых замен, удалений вставок
kitten Vs. sitting = 3 В Дамерау +транспозиция
kitten → sitten (substitution of "s" for "k") лавка Vs. савок = 3 sitten → sittin (substitution of "i" for "e") лавка → лавак sittin → sitting (insertion of "g" at the end) лавак → савак савак → савок

Слайд 21

Модель близости слов
Формальное определение:
Расстояние Левенштейна p(u, v) между словами u и

v -- минимальное число замен, вставок и удалений, необходимых, чтобы получить v из u.
[В.Левенштейн 1965]

Слайд 22

Модель близости слов
d(montagne, mountain) = 3
Посчитали количество необходимых операций

Слайд 23

Вычисление расстояния Левенштейна
Введём обозначения:
w = w[0] ... w[n-1] -- слово, где

Слайд 24

Вычисление расстояния Левенштейна
Введём обозначения:
w = w[0] ... w[n-1] -- слово, где

|w| = n -- длина слова
w[i] -- i-ый символ слова, где w[i,j] -- подслово с i-ой по j-ую позицию (не включая j)
w[,j] -- префикс по j-ую позицию (не включая j)
w[i,] -- суффикс с i-ой позиции (включая i)
Идея: Будем вычислять расстояние d[ij] = p(u[,i], v[,j]) рекурсивно через значения для меньших i, j. Если |u| = m, |v| = n, то ответом будет d[mn]. То есть последняя возможная операция.

Слайд 25

Вычисление расстояние Левенштейна
Разделяй и властвуй
Какие есть подзадачи

Слайд 26

Вычисление расстояние Левенштейна
То же самое в виде таблицы
yabxe → abcde

Слайд 27

Формула расстояния Левенштейна

Слайд 28

Вычисление расстояние Левенштейна
Посчитайте расстояние между соль Vs. волос с помощью таблицы
Какое

расстояние будет между kitten Vs. mitten и между kitten Vs. kiten. Устно.
А если seatback Vs. backseat?
В чем проблема?

Слайд 29

Оптимальное выравнивание
Это путь по таблице, который приводит к преобразованию одной строки

в другую с минимальным значением расстояния Левенштейна, то есть это оптимальный порядок операций замена, удаление, добавление.
Его можно найти не для всех пар строк
→ Взвешенное расстояние Левенштейна

Слайд 30

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

смысла?

Слайд 31

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

смысла?
Теперь попробуйте посчитать расстояние Левенштейна

Слайд 32

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

смысла?
Теперь попробуйте посчитать расстояние Левенштейна

Слайд 33

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

смысла?
Теперь попробуйте посчитать расстояние Левенштейна
Выход: присвоим нашим операциям какие-то “веса”

Слайд 34

Модель близости слов
Еще раз как же выглядит модель по поиску ошибок

и их исправлению этой моделью?
Наивный подход: пройти по словарю и посчитать расстояние до каждого слова, выбрать ближайшее
Но, так нельзя: словари большие (агглютинативные языки -- сотни тысяч слов), а расстояние считается медленно

Слайд 35

Модель близости слов
Еще раз как же выглядит модель по поиску ошибок

Слайд 36

Взвешенное расстояние Левенштейна
Как же определять веса? Можем условно считать, что вес

- это вероятность опечатки на какой-то комбинации букв
Как вычислить эту вероятность?
корпус опечаток
эвристики:
расположение символов на клавиатуре
фонетическая близость
графическая близость

Слайд 37

Кстати, про фонетическую близость
обычно в алгоритмах с метриками расстояния кандидатами в

итоге считаются слова, которые отличаются от исходного на 1-2 буквы
Больше отличающихся букв: riiiiigtht –> right, donut –> doughnut, ave–> avenue
Тогда нужно использовать другие метрики расстояния, ориентированные на фонетическую близость и аббревиатуры/сокращения
Первым алгоритмом работающим с фонетической схожестью был Soundex

Слайд 38

Soundex

Слайд 39

Дан список фамилий и соответствующих им кодов Soundex в перепутанном порядке.

Некоторые символы пропущены:
Allaway, Anderson, Ashcombe, Buckingham, Chapman, Colquhoun, Evans, Fairwright, Kingscott, Lewis, Littlejohns, Stanmore, Stubbs, Tocher, Tonks, Whytehead
S312, T␣6␣, ␣5␣3, C42␣, T520, L␣42, A536, C155, ␣623, S356, ␣252, ␣152, ␣330, A251, A400, L2␣0

Слайд 40

Soundex
Задание 1. Опишите пошагово, как генерируется код Soundex.
Задание 2. Установите соответствия

между фамилиями и кодами Soundex и вставьте пропущенные символы.
Задание 3. Постройте коды Soundex для следующих фамилий: Ferguson, Fitzgerald, Hamnett, Keefe, Maxwell, Razey, Shaw, Upfield.

Слайд 41

Лингвистика для математиков. Исправление опечаток 1 презентация

Содержание

Удивительно, но начнём мы сегодня с задачиВ автоматической обработке естественного языка

Задание 1. Заполните пропуски.Задание 2. Дайте определение расстоянию Дамерау–Левенштейна и предположите,

Изначальная идея

Что такое spell checkerСофт/программа, которая проверяет текст на наличие опечатокЗадачиПоиск опечатокИсправление

Применение

Just a really old meme

Виды опечатокNon-word errorsReal world errorsКогнитивные ошибкиОшибки при записи речи “на слух”Ошибки

Задание. 1913 год - не тот мир

Работа с real word опечаткамиДля каждого слова w генерируем список кандидатов:

Работа с non-word опечаткамиПоиск non-word опечаток:Составляем словарь.Если слово не в словаре

Методом составления словаря

Работа с non-word опечаткамиПоиск non-word опечаток:Составляем словарь.Если слово не в словаре

Методом Bk-tressПреобразуем словарь в деревоКорень - случайное слово из словаряСлова из

Bk-tress

Что такое “близкие слова”Можно искать близкие слова в словареДля этого нужно

Функции расстояния между строкамиHamming расстояние = количество необходимых замен в строкеАрина

Функции расстояния между строкамиHamming расстояние = количество необходимых замен в строкеАрина

Функции расстояния между строкамиHamming расстояние = количество необходимых замен в строкеАрина

Модель близости словФормальное определение:Расстояние Левенштейна p(u, v) между словами u и

Модель близости словd(montagne, mountain) = 3Посчитали количество необходимых операций

Вычисление расстояния ЛевенштейнаВведём обозначения:w = w[0] ... w[n-1] -- слово, где

Вычисление расстояния ЛевенштейнаВведём обозначения:w = w[0] ... w[n-1] -- слово, где

Вычисление расстояние ЛевенштейнаРазделяй и властвуйКакие есть подзадачи

Вычисление расстояние ЛевенштейнаТо же самое в виде таблицыyabxe → abcde

Формула расстояния Левенштейна

Вычисление расстояние ЛевенштейнаПосчитайте расстояние между соль Vs. волос с помощью таблицыКакое

Оптимальное выравниваниеЭто путь по таблице, который приводит к преобразованию одной строки

Взвешенное расстояние ЛевенштейнаКакое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние ЛевенштейнаКакое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние ЛевенштейнаКакое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние ЛевенштейнаКакое расстояние между этими словами d(loup, lobo) из здравого

Модель близости словЕще раз как же выглядит модель по поиску ошибок

Модель близости словЕще раз как же выглядит модель по поиску ошибок

Взвешенное расстояние ЛевенштейнаКак же определять веса? Можем условно считать, что вес

Кстати, про фонетическую близостьобычно в алгоритмах с метриками расстояния кандидатами в

Soundex

Дан список фамилий и соответствующих им кодов Soundex в перепутанном порядке.

SoundexЗадание 1. Опишите пошагово, как генерируется код Soundex.Задание 2. Установите соответствия

Всем спасибо

Похожие презентации

Удивительно, но начнём мы сегодня с задачи
В автоматической обработке естественного языка

Задание 1. Заполните пропуски.
Задание 2. Дайте определение расстоянию Дамерау–Левенштейна и предположите,

Что такое spell checker
Софт/программа, которая проверяет текст на наличие опечаток
Задачи
Поиск опечаток
Исправление

Виды опечаток
Non-word errors
Real world errors
Когнитивные ошибки
Ошибки при записи речи “на слух”
Ошибки

Работа с real word опечатками
Для каждого слова w генерируем список кандидатов:

Работа с non-word опечатками
Поиск non-word опечаток:
Составляем словарь.
Если слово не в словаре

Работа с non-word опечатками
Поиск non-word опечаток:
Составляем словарь.
Если слово не в словаре

Методом Bk-tress
Преобразуем словарь в дерево
Корень - случайное слово из словаря
Слова из

Что такое “близкие слова”
Можно искать близкие слова в словаре
Для этого нужно

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Функции расстояния между строками
Hamming расстояние = количество необходимых замен в строке
Арина

Модель близости слов
Формальное определение:
Расстояние Левенштейна p(u, v) между словами u и

Модель близости слов
d(montagne, mountain) = 3
Посчитали количество необходимых операций

Вычисление расстояния Левенштейна
Введём обозначения:
w = w[0] ... w[n-1] -- слово, где

Вычисление расстояния Левенштейна
Введём обозначения:
w = w[0] ... w[n-1] -- слово, где

Вычисление расстояние Левенштейна
Разделяй и властвуй
Какие есть подзадачи

Вычисление расстояние Левенштейна
То же самое в виде таблицы
yabxe → abcde

Вычисление расстояние Левенштейна
Посчитайте расстояние между соль Vs. волос с помощью таблицы
Какое

Оптимальное выравнивание
Это путь по таблице, который приводит к преобразованию одной строки

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

Взвешенное расстояние Левенштейна
Какое расстояние между этими словами d(loup, lobo) из здравого

Модель близости слов
Еще раз как же выглядит модель по поиску ошибок

Модель близости слов
Еще раз как же выглядит модель по поиску ошибок

Взвешенное расстояние Левенштейна
Как же определять веса? Можем условно считать, что вес

Кстати, про фонетическую близость
обычно в алгоритмах с метриками расстояния кандидатами в

Soundex
Задание 1. Опишите пошагово, как генерируется код Soundex.
Задание 2. Установите соответствия