11 мая 2025 г. в 16:52
Резиденты нашего сообщества Санжар Мурзахметов, Санжар Умбет, Бексултан Cагындык и Кирилл Якунин запустили первую оффлайн-арену LLM для казахского языка!
Главная цель — проверить не просто генерацию следующего токена, а понимание культурного контекста в целом.
Что было сделано:
• Собрали кастомный QA-датасет с культурным фокусом.
• Использовали Serper, Perplexity и LLM-генерацию, вместе с лингвистами собрали темы и ключевые слова
• Модели сравнивались в парах: сначала с помощью GPT-4o, в финале — через модель Bradley-Terry.
Текущие Результаты:
• Модели Gemma от Google DeepMind стабильно сильные
• Sherkala-8B (MBZUAI) — второе место, обошёл даже большие модели
• ISSAI (Nazarbayev University) — хорошие MC-балы, но одни из самых слабых по генерации.