Нейросети стали обыденностью: студенты пишут курсовые с помощью ChatGPT, иллюстраторы рисуют в Midjourney, а Т9 регулярно предлагает неловкие автозамены. Технологиями заинтересовались и корпорации: например, РЖД провели конкурс цифрового искусства. Но что мы знаем о том, как нейросети работают с языком? Как видят слова и изображают их? Спросили у Владимира Морозова — разработчика машинного обучения в отделе обработки естественного языка «Яндекса».Как устроены языковые моделиВ машинном обучении основа работы с естественными языками (теми, на которых говорят люди, в противоположность языкам программирования. —
Прим. «Изборника») — языковые модели. Именно они учатся предсказывать слова, генерировать тексты и изображения.
Языковая модель — это большая математическая программа, которая понимает и генерирует текст на естественном языке. Она работает как «чёрный ящик», который позволяет предсказывать следующее слово в последовательности.
Как объясняет разработчик машинного обучения
Владимир Морозов, на входе модель получает текст. Например, если пользователь набирает слова на клавиатуре, первой их прочитает именно языковая модель. За распознавание высказывания отвечает
энкодер. Чтобы понять смысл, модель делит входной текст на мелкие кусочки, такие как слова или фразы.
Для предсказания важен
контекст, поэтому модель учится понимать, как слова в предложении связаны между собой и какие из них чаще встречаются вместе. На основе анализа и контекста модель предсказывает, какое слово или фразу логично было бы использовать дальше. За это отвечает
декодер.
Затем модель создаёт следующий фрагмент текста, который она считает наиболее верным в контексте. Именно эту фразу пользователь увидит у себя на клавиатуре смартфона в строке подсказок. Процесс повторяется множество раз, чтобы сгенерировать полный текст или ответ на вопрос, если нейросеть встроена не в клавиатуру, а чат-помощник.
Владимир рассказывает: «Дальнейший процесс зависит от того, какую задачу мы хотим решить: если нейросеть анализирует предложение и должна выдать предложение, то языковая модель обновляет контекст новыми сгенерированными словами и снова предсказывает слово».