Содержание
- 2. Soundex Soundex — это алгоритм для кодирования имён собственных. 1918–1922 гг. в США Роберт Расселл и
- 3. Soundex
- 4. Дан список фамилий и соответствующих им кодов Soundex в перепутанном порядке. Некоторые символы пропущены: Allaway, Anderson,
- 5. Soundex Задание 1. Опишите пошагово, как генерируется код Soundex. Задание 2. Установите соответствия между фамилиями и
- 6. Ответы Ответ на задание 2 Allaway: A400, Anderson: A536, Ashcombe: A251, Buckingham: B252, Chapman: C155, Colquhoun:
- 7. Soundex Проблемные моменты: Выкидывание h/w вообще-то портит много кейсов. (Придумайте сами такое имя собственное) Для каких
- 8. Улучшенный Soundex
- 9. Улучшенный Soundex В среднем, на одно значение кода Soundex приходится 21 фамилия. В случае же улучшенной
- 10. Soundex Идея называется - нечёткий поиск (approximate string matching, fuzzy string searching) Супер реализации в python
- 11. Алгоритм Metaphone Придумали в 1990 Существует для английского, бразильского португальского, испанского и русского Неудобно, потому что
- 12. Алгоритм Metaphone Drop duplicate adjacent letters, except for C. If the word begins with 'KN', 'GN',
- 13. Алгоритм Metaphone 'G' transforms to 'J' if before 'I', 'E', or 'Y', and it is not
- 14. Алгоритм Metaphone 'V' transforms to 'F'. 'WH' transforms to 'W' if at the beginning. Drop 'W'
- 15. Алгоритм Metaphone ALEXANDRE → ALEKSANTRE → ALKSNTR ALEKSANDER → ALEKSANTER → ALKSNTR
- 16. Алгоритм Metaphone AKXN → Агашин, Акаченок, Акишин, Аксионенко, Аксионов, Акчунаев, Акшанов, Акшенцев, Акшинский, Акшинцев, Акшонов. FSLX
- 17. Русский Metaphone 2002 Этот алгоритм преобразует к одному и тому же коду в среднем 1-2 фамилии.
- 18. Для всех гласных букв проделать следующие операции. ЙО, ИО, ЙЕ, ИЕ → И О, Ы, Я
- 19. Для всех гласных букв проделать следующие операции. ЙО, ИО, ЙЕ, ИЕ → И О, Ы, Я
- 20. Русский Metaphone примеры ВИТАФСКИЙ → Витавский, Витовский. ВИТИНБИРК → Витенберг, Виттенберг. НАСАНАФ → Насанов, Насонов, Нассонов,
- 21. Алгоритм Match rating approach Использует и фонетические правила (comparison rules and encoding rules), и расстояния Полученное
- 22. Алгоритм Match rating approach Encoding праила: Удалить все гласные, если они не в начале слова Удалить
- 23. Алгоритм Match rating approach
- 24. There is more Другие методы из серии approximate string matching: Caverphone NYSIIS Daitch-Mokotoff Soundex Double metaphone
- 25. Другие методы: применение машинного обучения В основном для случаев real word errors: see you in five
- 26. Модель noisy channel written text → into a spoken text
- 27. Модель noisy channel
- 28. Кто такой Питер Норвиг? Закодил один из простейших алгоритмов spellcheck (И всего лишь в 21 строчку
- 29. Регулярные выражения и нормализация текста
- 30. ELIZA - первая Алиса
- 31. Регулярные выражения Что это такое? Какой-то формальный язык, помогающий искать в тексте/строке какие-то паттерны Regex: one
- 32. Формальный язык Итак: контекстные замены -- приведите пример?
- 33. Формальный язык Что есть в формальном языке? Алфавит (конечный) IPA - это алфавит буквы кириллического алфавита
- 34. Формальные языки У них есть много подвидов и даже иерархия, но об этом чуть дальше Регулярный
- 35. Правила регулярного языка Приоритет операций: итерация, конкатенация, объединение
- 36. Примеры регулярных языков
- 37. Примеры регулярных выражений в лингвистике
- 38. Примеры регулярных выражений в лингвистике
- 39. Примеры регулярных выражений в лингвистике
- 40. Примеры регулярных выражений в лингвистике
- 41. Примеры регулярных выражений в лингвистике
- 42. Регулярные выражения: Хомский Так, а причем здесь Хомский? Иерархия Хомского -- классификация формальных языков и формальных
- 43. Формальная грамматика Terminals: {s, sh, ss} Nonterminals: {snake, I, am} Production rules: {I → sh, am
- 44. Формальная грамматика Аналогия в синтаксисе:
- 45. Регулярные выражения и конечные автоматы Есть регулярное выражение: colou?r, которое описывает такой набор слов: {colour, color}
- 46. Регулярные выражения и конечные автоматы colou?r -- {colour, color}
- 47. Нарисуйте конечные автоматы для слогов для закрытого слога для слова с 2 гласными, разделёнными хотя бы
- 48. Нарисуйте конечные автоматы для слогов для закрытого слога для слова с 2 гласными, разделёнными хотя бы
- 49. Регулярки в ELIZA
- 50. Регулярки в ELIZA
- 51. Нормализация текстов Токенизация Удаление стоп-слов Приведение к начальной форме / лемматизация / нормализация Разделение на предложения
- 52. Токенизация и стоп-слова Удалить знаки препинания, хештеги, смайлики и прочую ненужную ерунду Поделить по пробелам (смотри
- 53. Токенизация
- 54. Нормализация, лемматизация, стемминг… В чём разница? Токенизация и нормализация слов делаются методом каскадов простых регулярных выражений
- 55. Byte-pair encoding для токенизации Не отталкивается от того, что является лингвистически словом в конкретном языке (ура?)
- 56. Byte-pair encoding для токенизации С этим алгоритмом никакие слова не будут забыты и не распознаны
- 57. Byte-pair encoding для токенизации Словарь на входе с информацией по частотности слов
- 58. Byte-pair encoding для токенизации Смотрим какая комбинация из двух символов самая частотная
- 59. Byte-pair encoding для токенизации Снова ищем самую частотную пару символов уже в новом словаре
- 60. Byte-pair encoding для токенизации И снова:
- 61. Byte-pair encoding для токенизации Если мы дойдем до конца выйдет вот что: Это наш словарь
- 62. Byte-pair encoding для токенизации Что будет с каким-нибудь неизвестным нам ранее словом lower? Оно токенизируется в
- 63. Домашнее задание (оцениваемое) Напишите правила для своей ELIZA, но с каким-то другим концептом, не психолога :)
- 64. Всем спасибо Напоминаю про задание мне можно писать сюда Можно спрашивать туда же Сдавать либо мне
- 66. Скачать презентацию