Стандарт Unicode. Токенизация и нормализация текста. Регулярные языки, регулярные выражения и конечные автоматы.
Морфология
Компьютерная морфология. Лемматизация и стемминг. Конечные трансдьюсеры как модель для морфологических преобразований. Программа Mystem.
Языковые модели
Модели на основе N-грам. Прюнинг и сжатие языковых моделей.
Скрытые марковские модели
Прямые и обратные вероятности. Алгоритм Витерби. Пример: задача определения частей речи.
Марковские модели максимальной энтропии
Генеративные и дискриминативные модели. Логистическая регрессия. Принцип максимальной энтропии. Пример: задача распознавания именованных сущностей.
Контекстно-свободные грамматики
Иерархия формальных грамматик Хомского. Примеры. Нормальная форма Хомского для контекстно-свободных грамматик. Нисходящие и восходящие синтаксические парсеры. Алгоритмы Earley и Cocke–Younger–Kasami.
Синтаксические деревья зависимостей
Деревья зависимостей и деревья составляющих. Data-driven подходы к разметке синтаксиса. MaltParser.
Извлечение отношений
Отношения в тексте между именованными сущностями. Поиски совпадений по образцу. Подходы, основанные на машинном обучении. Bootstrapping.