4 января 2024 г. в 10:42
Эта система, в сотрудничестве со специалистами IT и аналитиками АО “Центр развития трудовых ресурсов” (АО “ЦРТР”), адаптирована и внедрена на платформе enbek.kz.
Сервис работает на основе FastAPI, sentence_transformers и PyTorch. Ядро системы состоит из NLP-модели, которая преобразует текст резюме и вакансий в так называемые embedding vectors. После фильтрации вакансий по различным параметрам, таким как регион или профессия, эти вектора используются для рассчета косинусного расстояния между векторами вакансий и вектором запроса резюме. Система выбирает ближайшие по расстоянию вектора по степени "схожести" (cosine similarity).
Особенностью этой системы является её способность обучаться не только на основе текущих профессий, но и на семантике образования, навыков и предыдущего опыта работы соискателя. Для этого Исагали использовал не окончательную модель, а checkpoint в середине процесса обучения, чтобы избежать переобучения исключительно на текущих профессиях.
Скорость выдачи рекомендаций высока благодаря использованию только retriever model, без дополнительной классификационной модели reranker. Обучение модели проводилось с использованием ContrastiveLoss, и хотя Исагали не успел исследовать другие функции потерь, потенциал для дальнейших улучшений системы остается огромным.
Этот проект, как сообщает пресс-релиз АО “ЦРТР”, не только демонстрирует важные инновации в области подбора персонала, но и открывает новые горизонты для использования NLP в решении реальных задач рынка труда.