Содержание
- 2. Удивительно, но начнём мы сегодня с задачи В автоматической обработке естественного языка (например, при автоматической проверке
- 4. Задание 1. Заполните пропуски. Задание 2. Дайте определение расстоянию Дамерау–Левенштейна и предположите, какие классы опечаток выделил
- 5. Изначальная идея
- 6. Что такое spell checker Софт/программа, которая проверяет текст на наличие опечаток Задачи Поиск опечаток Исправление опечаток:
- 7. Применение
- 8. Just a really old meme
- 9. Виды опечаток Non-word errors Real world errors Когнитивные ошибки Ошибки при записи речи “на слух” Ошибки
- 10. Задание. 1913 год - не тот мир
- 11. Работа с real word опечатками Для каждого слова w генерируем список кандидатов: • Ищем кандидатов с
- 12. Работа с non-word опечатками Поиск non-word опечаток: Составляем словарь. Если слово не в словаре → это
- 13. Методом составления словаря
- 14. Работа с non-word опечатками Поиск non-word опечаток: Составляем словарь. Если слово не в словаре → это
- 15. Методом Bk-tress Преобразуем словарь в дерево Корень - случайное слово из словаря Слова из словаря связываются
- 16. Bk-tress
- 17. Что такое “близкие слова” Можно искать близкие слова в словаре Для этого нужно задать функцию расстояния
- 18. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
- 19. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
- 20. Функции расстояния между строками Hamming расстояние = количество необходимых замен в строке Арина Vs. Алина =
- 21. Модель близости слов Формальное определение: Расстояние Левенштейна p(u, v) между словами u и v -- минимальное
- 22. Модель близости слов d(montagne, mountain) = 3 Посчитали количество необходимых операций
- 23. Вычисление расстояния Левенштейна Введём обозначения: w = w[0] ... w[n-1] -- слово, где |w| = n
- 24. Вычисление расстояния Левенштейна Введём обозначения: w = w[0] ... w[n-1] -- слово, где |w| = n
- 25. Вычисление расстояние Левенштейна Разделяй и властвуй Какие есть подзадачи
- 26. Вычисление расстояние Левенштейна То же самое в виде таблицы yabxe → abcde
- 27. Формула расстояния Левенштейна
- 28. Вычисление расстояние Левенштейна Посчитайте расстояние между соль Vs. волос с помощью таблицы Какое расстояние будет между
- 29. Оптимальное выравнивание Это путь по таблице, который приводит к преобразованию одной строки в другую с минимальным
- 30. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла?
- 31. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
- 32. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
- 33. Взвешенное расстояние Левенштейна Какое расстояние между этими словами d(loup, lobo) из здравого смысла? Теперь попробуйте посчитать
- 34. Модель близости слов Еще раз как же выглядит модель по поиску ошибок и их исправлению этой
- 35. Модель близости слов Еще раз как же выглядит модель по поиску ошибок и их исправлению этой
- 36. Взвешенное расстояние Левенштейна Как же определять веса? Можем условно считать, что вес - это вероятность опечатки
- 37. Кстати, про фонетическую близость обычно в алгоритмах с метриками расстояния кандидатами в итоге считаются слова, которые
- 38. Soundex
- 39. Дан список фамилий и соответствующих им кодов Soundex в перепутанном порядке. Некоторые символы пропущены: Allaway, Anderson,
- 40. Soundex Задание 1. Опишите пошагово, как генерируется код Soundex. Задание 2. Установите соответствия между фамилиями и
- 41. Всем спасибо
- 43. Скачать презентацию