Машинная морфология. Автоматический морфологический анализ. Виды автоматического морфологического анализа презентация

Содержание

Слайд 2

Машинная морфология

Слайд 3

Область применения

Машинная морфология необходима в прикладных системах, ведущих поиск и анализ информации на

естественном языке.
При индексировании текстов и поиске запросов поисковая машина должна производить лингвистическую обработку слов.

Слайд 4

У каждого слова очень много различных форм, которые называются словоформами.
Словоформы по смыслу

являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе.
Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.

Слайд 5

Стемминг

Естественным решением этой проблемы изменчивости слов является решение хранить только основы слов.
Для

этого в ходе индексации web-страниц слова приводятся к основам, и уже в таком виде добавляются в индекс поисковой машины.
Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.

Слайд 6

Функции машинной морфологии

Нормализация: получение по любой форме слова морфологического индекса, одинакового для всех

словоформ слова, используемого как для индексации, так и для поиска.

Слайд 7

Анализ: получение по словоформе всех её характеристик (род, число, падеж, время, лицо и

пр.) и всех возможных омонимов.

Слайд 9

Синтез новых слов: определение всех морфологических характеристик для незнакомых слов.

Слайд 10

Автоматический морфологический анализ

Слайд 11

Автоматический морфологический анализ

АМА – анализ отдельно взятой словоформы и всех тех сведений, которые

из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет.
АМА определяется двумя факторами:
1) тип ЕЯ, подвергаемого анализу
2) тип алгоритма автоматической обработки текста

Слайд 12

Общая схема обработки текста

Слайд 13

Анализ отдельных слов

Морфологический и морфемный анализы слов
Входной параметр: текстовое представление исходного слова
Цель и

результат: определение морфологических характеристик слова и его основная словоформа

Слайд 14

Существует три основных подхода к проведению морфологического анализа:

1. «четкая» морфология – для русского

языка он основан на словаре Зализняка.
2.«нечеткая» морфология –
основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики.
3. вероятностный подход – основан на сочетаемости слов с конкретными морфологическими характеристиками.

Слайд 15

«четкая» морфология

Словарь Зализняка содержит основные словоформы слов русского языка, для каждой из которых

указан определенный код.
Известна система правил, с помощью которой можно построить все формы данного слова, отталкиваясь от начальной словоформы и соответствующего ей кода.
Помимо построения каждой словоформы, система правил автоматически ставит в соответствие ей морфологические характеристики.
При проведении четкого морфологического анализа необходимо иметь словарь всех слов и всех словоформ языка.
Этот словарь на входе принимает форму слова, а на выходе выдает его морфологические характеристики.

Слайд 16

При таком подходе для проведения морфологического анализа заданного слова необходимо просто найти его

в словаре, где уже хранятся точные, «окончательно известные» значения всех его морфологических характеристик.
Для одного и того же входного слова могут встретиться сразу несколько вариантов значений его морфологических
характеристик.

Слайд 17

Морфологический анализ на основе словаря Зализняка

http://www.aot.ru/docs/rusmorph.html

Слайд 18

К сожалению, этот способ применим не всегда: слова, поступающие на вход, могут не

входить в словарь всех словоформ.
Такая ситуация может возникнуть из-за ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д.
В случае, когда метод не дает нужного результата, применяется нечеткая морфология.

Слайд 19

Морфемный анализ

Цель – разделение слова на приставки, корни, суффиксы и окончания.
В словаре морфем

русского языка указано разделение каждого слова на отдельные части, но не указаны типы каждой из них — какая из них является приставкой, какая корнем и т.д.
Множество всех корней слов русского языка открыто, но множество всех возможных приставок, суффиксов и окончаний ограничено.
Кроме того, известно, что в любом слове сначала идут приставки, затем корни, далее суффиксы и окончания.

Слайд 20

Поэтому на основе словаря морфем русского языка можно построить другой словарь, который будет

содержать не только разбиение каждого слова на части, но и тип каждой из них. В таком случае, для проведения морфемного анализа слова необходимо обратиться к этому словарю.
Морфемный анализ не ограничивается обращениями к словарю. В ситуации, когда слово отсутствует в словаре, возможно непосредственное проведение анализа на основе стандартного строения слов русского языка (приставка — корень — суффикс — окончание) и множества всех приставок, суффиксов и окончаний.

Слайд 21

Морфемный анализ

Слайд 22

«нечеткая» морфология
Наличие тех или иных лексем может определять морфологические характеристики слова: можно построить

систему правил, которая будет опираться на наличие или отсутствие каких-либо частей и выдавать одно или несколько предположений о морфологических параметрах.
Такой набор правил можно построить основываясь на морфемном анализе слов, содержащихся в словаре всех словоформ, и их морфологических характеристик.

Слайд 23

Рассмотрим эту задачу формальнее:

Известны пары значений, состоящие из морфемного строения слова и его

морфологических характеристик.
Это есть не что иное, как «вход» и «выход» системы правил, которая по морфемному строению слова будет определять его морфологические характеристики.
Задачу построения такой системы правил можно решить с помощью самообучающейся системы.
Для ее реализации могут быть использованы деревья решений, программирование на основе индуктивной логики (ILP, Inductive Logic Programming) или другие алгоритмы.

Слайд 24

Нечеткий морфологический анализ

Слайд 25

Данный подход состоит в:
формировании набора правил
вручную.
Его реализация :
написание экспертной

системы диагностирующего типа.

Слайд 26

вероятностный подход

Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам.
Для

каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс.
Затем вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова.

Слайд 27

Замечания:

Вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов

в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны.
Если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.

Слайд 28

Виды автоматического морфологического анализа

Слайд 29

Важен тип входного словаря

Учитывая связь морфологического анализа со словарём можно выделить следующие виды

морфологического анализа:
МА со словарём словоформ
МА со словарём основ
МА методом логического умножения
Независимый МА без словаря словоформ

Слайд 30

МА со словарём словоформ:

Каждой словоформе приписывается определённая информация.
Отыскивается нужное слово, извлекается информация о

нем.

Слайд 31

+
простота и высокая скорость анализа;
универсальность по отношению по
2. отношению ко

множеству всех возможным словоформ русского языка

Слайд 32

-
Большие затраты труда на создание и поддержание словаря;
Невозможность полного размещения словаря в

оперативной памяти при анализе;
Высокая избыточность информации, связанной с постоянными признаками каждой словоформы (морфологическими, синтаксическими, семантическими)

Слайд 33

МА со словарём основ:

каждое слово разделяется на основу и аффикс (окончание, суффикс);
словарь содержит

только основы слов вместе с ссылками на соответствующие строки в таблице возможных аффиксов.

Слайд 34

МА со словарём основ:

При разбиении слова на основу и аффикс – основа должна

оставаться неизменной во всех возможных словоформах данного слова
Суммарный объем словаря основ и словаря аффиксов < объем полного словаря всех словоформ

Слайд 35

Иногда используется комбинированный вариант морфологического анализа (используется как словарь словоформ, так и словарь

основ):

Использование
словаря основ

Использование
словаря
словоформ

+

-

Завершение анализа

Слайд 36

+
время анализа одного слова может быть выше, но объем словарей позволяет загружать

словари целиком;
словари значительно легче создавать, т.к. постоянные параметры каждого слова вводятся однократно, вместе с основой.

Слайд 37

-
отсутствие универсальности, существует большое количество слов, которые нельзя представить в виде

суммы неизменной основы и аффикса.
Например: сущ. «ГОД» во мн.ч., ед. П – «ЛЕТ» местоимение «Я»

Слайд 38

МА методом логического умножения (Варга)
Каждой морфеме сопоставляется информация, полученная в результате объединения информации

о словоформах, в которые входит данная морфема.
Информация о словоформе получается как пересечение или логическая конъюнкция (&) информации о морфемах, входящих в данную словоформу.

Слайд 39

МА методом логического умножения (Варга)
Тем самым функция, определенная на множестве словоформ, заменяется на

функцию, определенную на множестве морфем.
Такой анализ производится при наличии словаря основ и применяется к флективным языкам, каждой букве соответствует булевый вектор (есть 1, нет 0).

Слайд 40

Независимый МА без словаря словоформ
Максимальное использование информации о флексиях во флективных языках.
Выделяются

грамматические морфемы: флексии, предлоги, союзы, знаки препинания между словами - все элементы. передающие связи слов во фразе.
Группа флексий, характеризующаяся одинаковым набором грамм. отношений. которые они могут передавать, образует морфему.

Слайд 41

Независимый МА без словаря словоформ

Флексии, входящие в одну морфему, называются алломорфами, т.е. морфемными

синонимами.
Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме.
С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамм. информации. (наречий и т.п.).
Способ имеет ограниченной применение.
Имя файла: Машинная-морфология.-Автоматический-морфологический-анализ.-Виды-автоматического-морфологического-анализа.pptx
Количество просмотров: 16
Количество скачиваний: 0