Использование Searchable DataStore для поиска закономерностей презентация

Ноябрь 19, 2021

Главная
Информатика
Использование Searchable DataStore для поиска закономерностей

Содержание

2. Создаем корпус файлов Создаем ресурс GATE – корпус Наполняем корпус файлами
3. Обрабатываем корпус Создаем стандартную последовательность обработки Что позволяет нам не только искать слова, но части речи,
4. Создаем индексированную БД При создании индексов тесты м.б. автоматически разбиты на единицы, но чтобы иметь информацию
5. У БД есть два вида
6. Внимание Если корпус сохранен в одном представлении, нельзя его сохранить в другом
7. Простой поиск Слово или фраза для поиска Сколько результатов отображать на одной странице Размер контекста
8. Что можно найти
9. Теперь чуть сложнее Можно задавать паттерны, как в правилах JAPE Например Вместо not a happy {Token.string=="not"}{Token=="a"}{Token=="happy"}
10. Можно экспортировать результаты
11. Применение в лабораторной работе 8 Проанализировать частоты встречаемости прилагательных, глаголов и т.д. Проанализировать частоты встречаемости грамматических
12. Mutual Information Criteria Делаем два корпуса БД – выбранное настроение и все другие Тогда можно выбрать
13. Расчет MIC Встречаемость считается по всей коллекции, а для расчета MIC требуется знать в скольких документах
15. Скачать презентацию

Слайд 2

Создаем корпус файлов
Создаем ресурс GATE – корпус
Наполняем корпус файлами

Слайд 3

Обрабатываем корпус
Создаем стандартную последовательность обработки
Что позволяет нам не только искать

слова, но части речи, именованные сущности и т.д.

Слайд 4

Создаем индексированную БД
При создании индексов тесты м.б.
автоматически разбиты на единицы,
но

чтобы иметь информацию о частях речи нужно применить к тексту обработчики

При создании индексов по умолчанию не включаются SpaceToken и Split
Значит нельзя будет поймать
последовательность {Token}{SpaceToken},
но обычно в этом нет необходимости

Слайд 5

У БД есть два вида

Слайд 6

Внимание
Если корпус сохранен в одном представлении, нельзя его сохранить в другом

Слайд 7

Простой поиск
Слово или фраза для поиска
Сколько результатов отображать на одной

странице

Размер контекста

Слайд 8

Что можно найти

Слайд 9

Теперь чуть сложнее
Можно задавать паттерны, как в правилах JAPE
Например
Вместо
not a

happy
{Token.string=="not"}{Token=="a"}{Token=="happy"}
Или чуть шире
{Token.string=="not"}{Token=="a"}{Token==“JJ"}
Или еще шире
{Token.category=="RB"}({Token.category=="DT"})?{Token.category==“JJ"}

Слайд 10

Можно экспортировать результаты

Слайд 11

Применение в лабораторной работе 8
Проанализировать частоты встречаемости прилагательных, глаголов и т.д.
Проанализировать

частоты встречаемости грамматических паттернов в выбранной категории настроений
Попытаться выявить паттерны характеризующие настроение (i feel happy, oh so happy)
Определить частоты встречающихся слов
Определить наиболее информативные слова по Mutual Information Criteria
Определить наиболее информативные паттерны
Выявить наиболее информативные паттерны учитывающие содержание слов

Слайд 12

Mutual Information Criteria
Делаем два корпуса БД – выбранное настроение и

все другие
Тогда можно выбрать и получить частоты

Слайд 13

Расчет MIC
Встречаемость считается по всей коллекции, а для расчета MIC требуется

знать в скольких документах встретилось искомое
способ – использовать данные из файла экспорта
2. способ – поместить метку документа,
потом посчитать кол-во неповторяющихся меток
3. способ написать программу на JAVA с использованием средств GATE

Использование Searchable DataStore для поиска закономерностей презентация

Содержание

Создаем корпус файловСоздаем ресурс GATE – корпусНаполняем корпус файлами

Обрабатываем корпус Создаем стандартную последовательность обработкиЧто позволяет нам не только искать

Создаем индексированную БДПри создании индексов тесты м.б. автоматически разбиты на единицы,но

У БД есть два вида

ВниманиеЕсли корпус сохранен в одном представлении, нельзя его сохранить в другом

Простой поискСлово или фраза для поиска Сколько результатов отображать на одной

Что можно найти

Теперь чуть сложнееМожно задавать паттерны, как в правилах JAPEНапримерВместо not a