Исследователь отмечает, что без такой возможности не появились бы многие ветви современной лингвистики, в том числе
культуромика — форма вычислительной лексикологии, которая изучает поведение человека и культурные тенденции с помощью количественного анализа оцифрованных текстов.
«С другой стороны, — рассуждает Дарья, — при таком масштабе и формальном подходе нужно понимать, что мы переходим от непосредственно текста, художественного произведения с уловками и приёмами, к его модели. Степень формальности такой модели исследователь определяет сам, и подводный камень здесь в том, что если очень увлечься, то модель перестанет отображать особенности текста-первоисточника. Кроме того, ловушкой может стать несовершенство технических методов и неоднозначные результаты исследования как следствие».
Ещё один нюанс, по словам специалиста, в том, что количественные методы, как следует из названия, оперируют числами и «привязать эти числа к смыслам» иногда очень непросто. Важно быть аккуратным в своих суждениях и не делать слишком обширных выводов, что актуально не только для цифрового литературоведения.
Впрочем, цифровое литературоведение — не единственное направление исследования, которое использует лингвистический анализ текста и прибегает к помощи компьютера.
Юлия Селюкова рассказывает, что существуют психологические проекты: «Оказывается, после анализа большого количества разнообразных текстов определённый программный продукт по написанному вами тексту может сказать, холерик вы или сангвиник, в каком настроении вы находились в момент написания текста, насколько вы вообще эмоциональный человек».
Юлия уверена, что на следующей стадии развития программного анализа языка появятся полуавтоматизированный коучинг и полуавтоматизированные психологи. «Понятно, что программа не заменит психолога высокого класса, который понимает индивидуальную ситуацию человека, — говорит Юлия, — но на какое-то количество вопросов, особенно чтобы не дать человеку прямо сейчас выйти в окошко, автоматический психолог ответить сможет».
В сети можно найти материалы о других проблемах, которые искусственный интеллект решает с помощью анализа текста. Например, «Системный Блокъ»
объясняет, как специальная программа помогает вычислить фейк-ньюс.
В основе метода, который описан в этом материале, измерение тематической разнородности новостных сообщений, которая меньше у фейковых материалов. Её, в свою очередь, определяют по ключевым словам и по их языковым характеристикам.
Роберт Дрынкин рассказывает, что сейчас искусственный интеллект выполняет разные задачи по анализу текста и не нуждается в лингвистических факторах: «В 2018 году появилась модель ELMO. Она без дополнительных условий, ориентируясь только на конкретные предложения, могла выполнить многие задачи: классификация текстов, перевод, трансфер стиля, диалог, сжатие текста, ответы на вопросы по тексту».
Через полгода программисты создали модель BERT. Её можно не только предобучить без лингвистических факторов, но и доучить потом практически на любую задачу.
«Последние два года NLP (Natural Language Processing, обработка естественного языка. —
Прим. «Изборника») выглядит как вариации на тему BERT'ов. Раньше лингвисты делали факторы — формулировали условия, от которых зависит корректное решение задачи, а теперь пытаются понять, что на самом деле выучивает BERT», — говорит Роберт.