25 июля 2023 г. в 12:15
Это открытая версия AI ассистента (как ChatGPT), которую можно использовать для файнтюнинга или локального использования в научных целях. Демо также доступно по ссылке
Немного важных особенностей:
• Размер контекста: 4096
• Размер модели: 7B (миллардов) параметров
• Размер датасета: 72 тысячи диалогов
Что делает нашу работу уникальной? Мы сконцентрировались на тщательной очистке данных, что является неотъемлемой частью научного подхода к анализу данных. Мы не просто производили очистку данных в один этап, мы продолжали улучшать нашу работу итеративно.
Один из ключевых шагов к достижению лучших результатов был связан с удалением из датасета стандартных ответов более крупных моделей AI, таких как "Sorry as an AI assistant I cannot...". После этого наша модель показала лучшие результаты среди всех доступных моделей с размером 7 миллиардов.
Команда разработки представлена ребятами из DSML KZ:
• Ерзат Дулат @rlprompt
• Айбек Бекбаев @qaszjo
• Сонбе Чан @Sungbae_Chun
• Джимми Ямазаки @myxik
Больше технических подробностей можно найти в блоге, посвященному выходу модельки