Математическая лингвистика презентация

Содержание

Слайд 2

Математическая лингвистика – дисциплина, предметом которой является разработка формального аппарата для описания строения

естественных и некоторых искусственных языков.
Математическое описание языка основано на восходящем к Ф. де Соссюру представлении о языке как механизме, функционирование которого проявляется в речевой деятельности его носителей; её результатом являются «правильные тексты» — последовательности речевых единиц, подчиняющиеся определённым закономерностям, многие из которых допускают математическое описание.

Математическая лингвистика

История

Разделы

Слайд 3

История

Математическая лингвистика – молодое направление, сформировавшееся в середине 20 века. Активное развитие математической лингвистики

в мировой науке было обусловлено необходимостью решения проблемы автоматической обработки, хранения, поиска и передачи информации на естественном языке.
В 1950–1960-е годы в крупнейших исследовательских центрах СССР были созданы лаборатории, в стенах которых филологи и математики объединили свои усилия в работе над системами компьютерного анализа текстов на разных языковых уровнях, машинного перевода, порождения и распознавания звучащей речи. Тогда же при Академии наук СССР был сформирован Комитет по прикладной лингвистике, призванный поддерживать новое направление, в том числе и в сфере образования.

с. 1 из 2

Слайд 4

История

В 1958 году на филологическом факультете Ленинградского государственного университета открылось первое стране отделение по подготовке кадров

в области математической лингвистики, а в 1962 году начала действовать одноимённая кафедра. В 1960 году отделение математической лингвистики было открыто на филологическом факультете Московского государственного университета, позднее появились отделения и в некоторых других отечественных вузах.
За рубежом обучение в области математической лингвистики ведётся не в филологическом ракурсе, а скорее в рамках таких дисциплин, как вычислительная техника и информационные технологии.

с. 2 из 2

Слайд 5

Разделы

Математическая лингвистика

Распознавание и синтез речи

Синтаксический анализ Синтаксический анализ и генерация текста

Машинный перевод

Слайд 6

Распознавание и синтез речи

Распознавание речи – набор технологий, позволяющих управлять компьютером, используя человеческий

голос. Коммерческие программы по распознаванию речи появились в начале девяностых годов. Такие программы переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Синтез речи – формирование речевого сигнала по печатному тексту. Синтез речи может быть использован в технике связи, в информационно-справочных системах, для помощи слепым и немым, при управлении человеком со стороны автомата, для выдачи информации о технологических процессах, в военной и космической технике, в робототехнике, в акустическом диалоге человека с компьютером. Вообще синтез речи может потребоваться во всех случаях, когда получателем информации является человек.

См. дополнительно: Типы синтеза речи

Слайд 7

Типы синтеза речи

Параметрический синтез. Речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров.

Достоинством такого способа является возможность записать речь для любого языка и любого диктора. Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.
Компиляционный синтез. Составление сообщения из предварительно записанного словаря исходных элементов синтеза. Компилятивный синтез имеет широкое практическое применение. Например, в справочных службах операторов сотовой связи при получении информации о состоянии счета абонента. Основная проблема — объёмы памяти для хранения словаря.
Полный синтез речи по правилам. Обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. Синтез реализуется путем моделирования речевого тракта, применения аналоговой или цифровой техники. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход - артикуляторный синтез. Второй подход — формантный синтез по правилам.

Слайд 8

Синтаксический анализ

Синтаксиический анализ (парсинг) – это процесс сопоставления линейной последовательности лексем языка с

его формальной грамматикой. Результатом обычно является дерево разбора. При парсинге исходный текст преобразуется в структуру данных, которая отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.

Области применения:
Языки программирования. Например, разбор исходного кода языков программирования, в процессе компиляции или интерпретации.
Структурированные данные. Например, XML, HTML, CSS и т. п.
SQL-запросы
Математические выражения
Регулярные выражения
Формальные грамматики
Человеческие языки. Например, машинный перевод и генераторы текстов.

Слайд 9

Дерево разбора

Слайд 10

Генерация текста

Генератор текста — компьютерная программа, способная генерировать последовательности символов, внешне похожие на

текст, но при этом, как правило, лишённые смысла. При этом тексты, созданные с помощью генераторов, являются правильными с точки зрения большинства языковых норм.

Современные программы для генерации текста используют в своей основе цепи Маркова на уровне слов. уровня слов. При составлении алгоритма генерации исследуются пары слов, стоящих рядом. То есть изучается вероятность появление того или иного слова после данного. Написание слов будет в итоге правильным добавляется и также правильным будет синтаксис синтаксис. Таким образом получается практически читаемый текст.

Слайд 11

Машинный перевод

Машинный перевод — процесс перевода текстов с одного естественного языка на другой

с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.

Типы систем машинного перевода:
С постредактированием: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
С предредактированием: человек приспосабливает текст к обработке машиной (устраняет возможные неоднозначные прочтения, упрощает и размечает текст), после чего начинается программная обработка.
С интерредактированием: человек вмешивается в работу системы перевода, разрешая трудные случаи.
Смешанные системы.

Слайд 12

Ссылки

Лингвистический энциклопедический словарь – 2-е изд., доп. – М.: Большая Российская энциклопедия, 2002.

– 709 с.: ил.
Значение слова «Математическая лингвистика» в Большой Советской Энциклопедии http://bse.sci-lib.com/article074311.html
http://ru.wikipedia.org/wiki/Математическая_лингвистика

Слайд 13

Нечеткие множества в лингвистике

Слайд 14

Определение

Теория нечетких множеств — раздел прикладной математики, посвященный методам анализа неопределенных данных,

в которых описание неопределенностей реальных явлений и процессов проводится с помощью понятия о множествах, не имеющих четких границ.

Слайд 17

Имя Возраст Степень молодости
Иван 10 1.00
Евгений 21 0.90
Сергей 25 0.5
Анна 26 0.40
Виктор 28 0.20
Роман 83 0.00

Слайд 19

<0/1>,<0.4/3>,<1/7>
Это множество говорит о том, что 7 - это на 0% единица,

на 40% тройка и на 100% семерка.
<"Семь",{1,3,7},{<0/1>,<0.4/3>,<1/7>}>
Этой записью мы определили соответствия между словом и некоторыми цифрами. Причем, как в названии переменной, так и в значениях x можно было использовать любые записи, несущие какую-либо информацию.

Слайд 20

A U B = {}
Maub(x) = max {Ma(x), Mb(x)}
ПЕРЕСЕЧЕНИЕ: создается новое

множество из одинаковых элементов исходных множеств, принадлежность которых берется минимальной.
A П B = {}
Maпb(x) = min {Ma(x), Mb(x)}
ДОПОЛНЕНИЕ: инвертируется принадлежность каждого элемента.
C = ~A = {}
Mc(x) = 1-Ma(x)
СТЕПЕНЬ: принадлежность каждого элемента возводится в степень.
CON - концентрация, степень=2 (уменьшает степень нечеткости)
DIN - растяжение, степень=1/2 (увеличивает степень нечеткости)
РАЗНОСТЬ: новое множество состоит из одинаковых элементов исходных множеств.

Слайд 21

A - B = {}
Ma-b(x) = Ma(x)-Mb(a), если Ma(x)>Mb(x)
иначе 0
НОСИТЕЛЬ: состоит

из элементов исходного множества, принадлежности которых больше нуля.
Supp(A) = {x|x?X /\ Ma(x)>0}
УМНОЖЕНИЕ НА ЧИСЛО: принадлежности элементов домножаются на число.
q*A = {}
СУПРЕМУМ: Sup - точная верхняя грань (максимальное значение принадлежности, присутствующее в множестве).

Слайд 22

Ссылки

http://www.aup.ru/books/m162/3_6.htm
http://www.intuit.ru/department/ds/fuzzysets/
http://www.plink.ru/tnm/gl12.htm
http://www.codenet.ru/progr/alg/Smart/Fuzzy-Sets.php
http://www.msclub.ce.cctpu.edu.ru/fuzzy/FUZZ_WKR/report3.htm
http://sapr.mgsu.ru/biblio/ex-syst/Glava9/Index8.htm

Слайд 23

Математические модели в лингвистике

Слайд 24

Модель в лингвистике - искусственно создаваемое лингвистом реальное или мысленное устройство, воспроизводящее, имитирующее

своим поведением (обычно в упрощенном виде) поведение оригинала в лингвистических целях.

Слайд 25

Типы моделей в лингвистике:

1. по охвату структуры языка:
общие (глобальные) стремятся охватить весь язык:


частные: фонетическая модель русского языка, модель системы гласных
2. по типологическому статусу:
универсальные стремятся охватить все языки мира:
специфические характерны для определенного языка или группы языков:
3. по гносеологическому статусу:
модели языка
модели лингвистических знаний различные фонетические школы
модели деятельности лингвиста

Слайд 26

4. по конечной цели исследования
теоретические
описательные
прикладные
5. по используемым методам
математические модели
психологические модели
социологические модели
6. по функциональному статусу
абстрактно обобщающие

модели
действующие
7. по используемым материальным средствам
графические
символьные
компьютерные

Слайд 27

Математическая лингвистика использует для изучения языков:
Аналитические
Порождающие
Исследовательские
Синтетические

Слайд 28

Синтаксические аналитические модели

Вход

Выход

Слайд 29

Семантические аналитические модели

Вход

Выход

Слайд 30

Синтаксические синтетические модели

Вход

Выход

Слайд 31

Семантические синтетические модели

Вход

Выход

Слайд 32

Порождающие модели

Вход

Выход

Слайд 33

Исследовательские модели

Вход

Выход

Имя файла: Математическая-лингвистика.pptx
Количество просмотров: 146
Количество скачиваний: 0