МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Компьютерная лингвистика и обработка естественного языка

рабочая программа дисциплины
Закреплена за кафедройКафедра теоретической кибернетики и прикладной математики
Направление подготовки02.03.02. Фундаментальная информатика и информационные технологии
ПрофильПрограммирование и информационные технологии
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план02_03_02_Фундаментальная информатика и информационные технологии_ПиИТ-2021
Часов по учебному плану 108
в том числе:
аудиторные занятия 42
самостоятельная работа 39
контроль 27
Виды контроля по семестрам
экзамены: 8

Распределение часов по семестрам

Курс (семестр) 4 (8) Итого
Недель 14
Вид занятий УПРПДУПРПД
Лекции 16 16 16 16
Лабораторные 26 26 26 26
Сам. работа 39 39 39 39
Часы на контроль 27 27 27 27
Итого 108 108 108 108

Программу составил(и):
Препод., Кротова О.С.;к.т.н., доцент, Хворова Л.А.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарев И.В.

Рабочая программа дисциплины
Компьютерная лингвистика и обработка естественного языка

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 02.03.02 Фундаментальная информатика и информационные технологии (приказ Минобрнауки России от 23.08.2017 г. № 808)

составлена на основании учебного плана:
02.03.02 Фундаментальная информатика и информационные технологии
утвержденного учёным советом вуза от 27.09.2022 протокол № 1.

Рабочая программа одобрена на заседании кафедры
Кафедра теоретической кибернетики и прикладной математики

Протокол от 29.06.2022 г. № 11
Срок действия программы: 2022-2023 уч. г.

Заведующий кафедрой
к.т.н., доцент Понькина Е.В.


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра теоретической кибернетики и прикладной математики

Протокол от 29.06.2022 г. № 11
Заведующий кафедрой к.т.н., доцент Понькина Е.В.


1. Цели освоения дисциплины

1.1.Целью освоения дисциплины является освоение методов и подходов компьютерной лингвистики и анализа текстовых данных.
Компьютерная лингвистика и анализ текстовых данных востребованное направление в IT. Популярные в современном мире машинные переводчики, чат-боты, системы «вопрос-ответ» и другое прикладное ПО строятся на методах и подходах анализа естественного языка. В процессе освоения дисциплины обучающиеся преобретут все небходимы навыки и умения разработки прикладного ПО для обработки естественного языка.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-4 Способен собирать, обрабатывать и интерпретировать экспериментальные данные, необходимые для проектной и производственно-технологической деятельности; способность к разработке новых алгоритмических, методических и технологических решений в конкретной сфере профессиональной деятельности
ПК-5 Способен к оценке качества, надежности и эффективности информационной системы в конкретной профессиональной сфере
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Методы и подходы компьютерного анализа и обработки естественного языка.
3.2.Уметь:
3.2.1.Строить автоматизированные системы анализа и обработки естественного языка.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками компьютерной лингвистики и анализа текстов, необходимыми для разработки современного программного обеспечения.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в компьютерную лингвистику
1.1. Основные понятия компьютерной лингвистики. Лингвистические данные. Сложности обработки и анализа естественного языка Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
1.2. Инструменты для анализа текста. Модули и библиотеки для NLP Лабораторные 8 4 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
Раздел 2. Корпусная лингвистика
2.1. Создание и применение корпусов текста Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
2.2. Доступ к данным с помощью NLTK: применение инструментов чтения и структурирования корпусов текстов Сам. работа 8 6 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
2.3. Обработка и преобразования корпуса текста: сегментация, лексемизация, промежуточный анализ корпуса Лабораторные 8 4 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
2.4. Лемматизация, векторизация, семантический анализ текстов. Распознавание именованных сущностей и извлечение отношений Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
2.5. Предварительная обработка и преобразование корпуса Лабораторные 8 4
2.6. Предварительная обработка и преобразование корпуса Сам. работа 8 6 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
2.7. Векторизация и преобразование с помощью NLTK и Scikit-learn. Вычисление TF-IDF Лабораторные 8 6
2.8. Векторизация и преобразование с помощью NLTK и Scikit-learn. Вычисление TF-IDF Сам. работа 8 6 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
Раздел 3. Прикладной анализ текстовых данных
3.1. Классификация в анализе текстовых данных Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.2. Классификация текстовых медицинских карт пациентов с заболеваниями легких Лабораторные 8 4
3.3. Классификация текстовых медицинских карт пациентов с заболеваниями легких Сам. работа 8 6 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.4. Кластеризация как инструмент выявления сходств в тексте Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.5. Выявление сходств в текстах научных публикаций с помощью кластеризации Лабораторные 8 4
3.6. Выявление сходств в текстах научных публикаций с помощью кластеризации Сам. работа 8 6 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.7. Контекстно-зависимый анализ текста Лекции 8 2 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.8. Извлечение признаков из медицинского текста на основе N-грамм Сам. работа 8 9 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1
3.9. Визуализация текста. Графовые методы анализа текста Лекции 8 4 Л2.4, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.1

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
См. приложение
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. приложение
Приложения
Приложение 1.   ФОС_КЛиАТ.docx

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Маккинни У. Python и анализ данных: Москва: ДМК Пресс, 2020 https://e.lanbook.com/book/131721
Л1.2 Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python: Издательство "ДМК Пресс", 2016 e.lanbook.com
Л1.3 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Прохоренок Н., Дронов В. Python 3. Самое необходимое.: БХВ-Петербург, 2016 bhv.ru
Л2.2 Златопольский Д.М. Основы программирования на языке Python: Учебники Издательство "ДМК Пресс", 2017 e.lanbook.com
Л2.3 Митчелл Р. Скрапинг веб-сайтов с помощю Python: Самоучители и руководства Издательство "ДМК Пресс", 2016 e.lanbook.com
Л2.4 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 kist.ntu.edu.ua
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Компьютерная лингвистика и анализ текста portal.edu.asu.ru
6.3. Перечень программного обеспечения
Microsoft Windows

Microsoft Office

Дистрибутив Anaconda
7-Zip

AcrobatReader
Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
1. Компьютерная лингвистика и анализ текста [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=7794.
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3.
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4.
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. 5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
408Л лаборатория математического моделирования - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютер Depo - 10 шт., 5 шт. с мониторами LG и 5 шт. с мониторами Philips; мультимедиа-проектор Sony - 1 шт.; МФУ Canon - 1 шт.; стационарный экран: марка Digis Optima C - 1 шт.
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
203Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка ASUS модель i5-6500 - 14 единиц

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполнять все задания и тесты, пользоваться основной и дополнительной литературой, рекомендованной настоящей программой.
Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполнения лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
При подготовке к зачету в дополнение к изучению конспектов и учебной литературы, рекомендуется посещать консультации и пользоваться свободными Интернет-ресурсами.