Цифровая экосистема МТС представила разработанную MTS AI новую версию большой языковой модели Cotype Lite для работы с текстами на татарском языке. Она получила название Rehmet — что в переводе означает спасибо.
MTS AI представил новую версию своей большой языковой модели Cotype на форуме Kazan Digital Week. Эта модель может обрабатывать документы объемом до пяти листов формата А4, извлекая и суммируя информацию за считанные секунды.
Cotype Rehmet может использоваться в архивах, библиотеках, в государственных и частных организациях — везде, где есть потребность в обработке информации и анализе документов на татарском. Модель помогает ускорить обработку заявлений в государственные органы, извлекая ключевую информацию о заявителях. Cotype Rehmet может быть установлена в контуре организации для исключения утечек информации.
Как рассказал исполнительный директор MTS AI Дмитрий Марков, при создании большой языковой модели на татарском, разработчики хотели поддержать многообразие языков, существующих в России.
«Этот проект показал, что мы умеем адаптировать наши модели под любые научные и бизнес-задачи, в том числе и такие нетривиальные как обработка информации на языках народов России», – уточнил он.
Разработчики собрали датасет и перевели его с русского на татарский язык, чтобы модель Cotype Rehmet могла понимать незнакомые тексты. Затем все данные и ответы модели были проверены специалистами-тюркологами и носителями языка.
Cotype Rehmet — это большая языковая модель, содержащая восемь млрд параметров и может быть адаптирована для других языков народов России.