Digital Humanities. Корпусная лингвистика презентация

Содержание

Слайд 2

Корпусная лингвистика

Корпусная лингвистика

Слайд 3

Корпусная лингвистика

Корпусная лингвистика

Слайд 4

Корпусная лингвистика

Корпусная лингвистика

Слайд 5

Корпусная лингвистика

Корпусная лингвистика

Слайд 6

Корпусная лингвистика

Корпусная лингвистика

Слайд 7

AntConc http://www.laurenceanthony.net/software/antconc/ ●Поиск и подсчет различных элементов текста ●Анализ частотности

AntConc
http://www.laurenceanthony.net/software/antconc/
●Поиск и подсчет различных элементов текста
●Анализ частотности и контекста употребления

словоформ
●Употребительность словоформ и словосочетаний в разных текстах
●Возможность подключения пользовательского списка лемм

Корпусная лингвистика

Слайд 8

AntConc http://www.laurenceanthony.net/software/antconc/ File / Open Files / .txt Tool Preferences

AntConc
http://www.laurenceanthony.net/software/antconc/
File / Open Files / .txt
Tool Preferences / Word List

/ Word List Range / Use a stoplist below / Add words from file / Open / english_stopwords.txt / Apply
Слайд 9

AntConc http://www.laurenceanthony.net/software/antconc/ Tool Preferences / Word List / Lemma List / Load / AntBNC_lemmas_var_001.txt / Apply

AntConc
http://www.laurenceanthony.net/software/antconc/
Tool Preferences / Word List / Lemma List / Load

/ AntBNC_lemmas_var_001.txt / Apply
Слайд 10

AntConc Word List / Start Sort by Frequency – сортировка

AntConc
Word List / Start
Sort by Frequency – сортировка по частоте встречаемости

в тексте;
Sort by Word – сортировка по алфавиту
Invert Order – в обратном порядке
Слайд 11

AntConc Чтобы найти конкретное слово, наберите его в поле Search Term и нажмите Search Only

AntConc
Чтобы найти конкретное слово, наберите его в поле Search Term и

нажмите Search Only
Слайд 12

AntConc Чтобы получить список всех случаев употребления слова,Ю т.е. конкорданс,

AntConc
Чтобы получить список всех случаев употребления слова,Ю т.е. конкорданс, выберите вкладку

Concordance / Start.
Сортировать результаты можно по правому или левому контексту (Level 1, Level 2 и Level 3)
Слайд 13

AntConc Чтобы увидеть контекст, выделите пример в списке и откройте

AntConc
Чтобы увидеть контекст, выделите пример в списке и откройте File View

(или откройте контекст двойным щелчком мыши)
Слайд 14

AntConc Во вкладке Concordance Plot можно увидеть графики, отражающие употребление слова в анализируемых текстах.

AntConc
Во вкладке Concordance Plot можно увидеть графики, отражающие употребление слова в

анализируемых текстах.
Слайд 15

AntConc Tool Preferences / Keyword List / Reference Corpus /

AntConc
Tool Preferences / Keyword List / Reference Corpus / Add Files

/ Load (загружаем все файлы, составляющие референтный корпус).

После этого во вкладке Keyword List / Start можно увидеть список необычно часто или редко встречающихся слов по сравнению с референтным корпусом

Слайд 16

AntConc Global Settings / Wildcards – список условных знаков для

AntConc
Global Settings / Wildcards – список условных знаков для более сложных

запросов (например, *ed – все слова, оканчивающиеся на -ed)
Слайд 17

Voyant Tools https://voyant-tools.org/ облако слов в соответствии с частотностью их

Voyant Tools
https://voyant-tools.org/
облако слов в соответствии с частотностью их употребления в

тексте
Можно редактировать список стоп-слов

Корпусная лингвистика

Слайд 18

Voyant Tools Выделив слово в облаке, справа можно увидеть график употребления этого слова на протяжении текста

Voyant Tools
Выделив слово в облаке, справа можно увидеть график употребления этого

слова на протяжении текста
Слайд 19

Voyant Tools Выделив слово в облаке, можно увидеть конкорданс для

Voyant Tools
Выделив слово в облаке, можно увидеть конкорданс для этого слова

(все случаи его употребления) в тексте. Нажав на + слева от примера, можно развернуть контекст.

Можно также выполнить более сложный поиск по тексту с помощью специальных знаков (wildcards)

http://docs.voyant-tools.org/tools/
http://docs.voyant-tools.org/about/examples-gallery/

Слайд 20

Сетевой анализ

Сетевой анализ

Слайд 21

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

Слайд 22

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

Слайд 23

“It’s pretty (and fashionable)” Ondrej Tichy, Charles University Сетевой анализ

“It’s pretty (and fashionable)”
Ondrej Tichy, Charles University

Сетевой анализ позволяет:
Вычислять значимость

отдельных узлов по разным критериям (центральность, betweenness centrality – центральность по посредничеству)
Анализировать пути распространения или передачи чего-либо (информации, инфекции и т.д.)
Выявлять сообщества
Слайд 24

А.С. Пушкин. «Борис Годунов»:

А.С. Пушкин. «Борис Годунов»:

Слайд 25

А.С. Грибоедов. «Горе от ума»: Russian Drama Corpus https://dracor.org/rus https://shiny.dracor.org/

А.С. Грибоедов. «Горе от ума»:

Russian Drama Corpus
https://dracor.org/rus
https://shiny.dracor.org/

Слайд 26

Gephi Программа для визуализации графов https://gephi.org/ https://gephi.org/users/

Gephi
Программа для визуализации графов

https://gephi.org/
https://gephi.org/users/

Слайд 27

Gephi Программа для визуализации графов

Gephi
Программа для визуализации графов

Слайд 28

Easy Linavis Онлайн-сервис для визуализации графов художественных произведений на основе простой сегментации https://ezlinavis.dracor.org/

Easy Linavis
Онлайн-сервис для визуализации графов художественных произведений на основе простой сегментации
https://ezlinavis.dracor.org/


Слайд 29

Электронная картография

Электронная картография

Слайд 30

Электронная картография: Анализ актуальных тем https://phys.org/news/2018-04-brexit-debate-twitter-driven-economic.html

Электронная картография:
Анализ актуальных тем

https://phys.org/news/2018-04-brexit-debate-twitter-driven-economic.html

Слайд 31

Электронная картография: Нанесение на карту значимых для исследователя объектов (места

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия произведения,

достопримечательностей, топонимов арабского происхождения и т.п.)
Слайд 32

https://topos.memo.ru/ Электронная картография: Нанесение на карту значимых для исследователя объектов

https://topos.memo.ru/

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия

произведения, достопримечательностей, топонимов арабского происхождения и т.п.)
Топография террора
Слайд 33

Электронная картография: Нанесение на карту значимых для исследователя объектов (места

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия произведения,

достопримечательностей, топонимов арабского происхождения и т.п.)
Artists in Paris

http://www.artistsinparis.org/

Слайд 34

Электронная картография: Нанесение на карту значимых для исследователя объектов (места

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия произведения,

достопримечательностей, топонимов арабского происхождения и т.п.)
Geocoded Art

http://geocodedart.com/

Слайд 35

Электронная картография: Нанесение на карту связей между объектами (например, между адресатами писем) Republic of Letters http://ink.designhumanities.org/voltaire/

Электронная картография:
Нанесение на карту связей между объектами (например, между адресатами писем)
Republic

of Letters

http://ink.designhumanities.org/voltaire/

Слайд 36

Электронная картография: как сделать? Carto Mapbox Геоинформационные пакеты (ArcGIS, QGIS)

Электронная картография: как сделать?
Carto
Mapbox
Геоинформационные пакеты (ArcGIS, QGIS)
Leaflet, ggmap, plotly (для R)
Folium,

plotly (для Python)
Google My Maps
Yandex конструктор карт
Слайд 37

QGIS:

QGIS:

Слайд 38

Стилометрия

Стилометрия

Слайд 39

Слайд 40

Слайд 41

Стилометрия это статистический анализ отклонений между литературными стилями разных авторов

Стилометрия
это статистический анализ отклонений между литературными стилями разных авторов или жанров

(Oxford Dictionary)
В основе стилометрии лежит гипотеза о том, что у авторского стиля есть как осознаваемая, так и не осознаваемая автором составляющая (Encyclopaedia of Statistical Sciences)
Стилометрические исследования во всем их разнообразии имеют две общие черты: тексты должны быть каким-то образом преобразованы в числа, а числа — исследованы статистическими методами (M. Eder, M. Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses)
Что можно посчитать?
Слова (частотность)
N-граммы (цепочки) символов'ая', 'овый', 'остью'
Леммы (конь/я/ю/ем/ями/ям/ем)
Части речи
Синтаксические структуры(в стихах) метр
общий размер словаря автора/текста
длина предложения
знаки препинания
(в нередактированном тексте) ошибки и особенности пунктуации
Слайд 42

Зачем "измерять" текст? Споры об авторстве Сравнение жанров Сравнение мужских

Зачем "измерять" текст?
Споры об авторстве
Сравнение жанров
Сравнение мужских и женских текстов
Сравнение оригиналов

и переводов
Исследования "стилома" человека (т.н. идиостиль); ранние и поздние тексты
Forensic linguistics, security and anonymity
Метод Delta
Фактически стандарт в стилометрии с  2002 года
Опирается на частотности слов (или символьных цепочек) 
Основан на очень простой математике
Z-score  
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
Слайд 43

Метод Delta Фактически стандарт в стилометрии с 2002 года Опирается

Метод Delta
Фактически стандарт в стилометрии с  2002 года
Опирается на частотности слов

(или символьных цепочек) 
Основан на очень простой математике
Z-score  
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
Слайд 44

Метод Delta Фактически стандарт в стилометрии с 2002 года Опирается

Метод Delta
Фактически стандарт в стилометрии с  2002 года
Опирается на частотности слов

(или символьных цепочек) 
Основан на очень простой математике
Z-score  
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
для каждого текста получается 100/300/500/1000 таких чисел, и "близость" авторов можно измерить в 100/300/1000-мерном пространстве
Слайд 45

Метод Delta

Метод Delta

Слайд 46

Стилометрия сегодня: Авторство Жанры Влияние редактора Датировка Эволюция стиля автора

Стилометрия сегодня:
Авторство
Жанры
Влияние редактора
Датировка
Эволюция стиля автора
Пол, возраст автора
Перевод и влияние переводчика

Слайд 47

Жанры: Шекспир

Жанры: Шекспир

Слайд 48

Датировка: Л.Н. Толстой

Датировка: Л.Н. Толстой

Слайд 49

Французские романы: оригиналы и переводы на английский язык

Французские романы: оригиналы и переводы на английский язык

Слайд 50

Французские романы: оригиналы и переводы на польский язык

Французские романы: оригиналы и переводы на польский язык

Слайд 51

Практическое применение стилометрии: Деанонимизация разработка стилевых анонимизаторов определение демографических параметров

Практическое применение стилометрии:
Деанонимизация
разработка стилевых анонимизаторов
определение демографических параметров
определение родного языка по стилю

языка неродного
Слайд 52

Stylo Пакет в языке R для стилеметрии в него встроена

Stylo
Пакет в языке R для стилеметрии
в него встроена Delta   
...и еще

много других метрик близости
есть приятный графический интерфейс!
https://sites.google.com/site/computationalstylistics/stylo
https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxjb21wdXRhdGlvbmFsc3R5bGlzdGljc3xneDpmM2U3OGUzZTM2YjkyYzM
главные функции
stylo () 
classify ()
rolling.delta (), rolling.classify ()
oppose ()
Имя файла: Digital-Humanities.-Корпусная-лингвистика.pptx
Количество просмотров: 33
Количество скачиваний: 0