Про векторизацию
Про векторизацию. Мы стали использовать библиотеку MiniLM-L12-v2 для создания эмбендингов. Она из текста делает 256 цифр (я упрощая пишу, как понял что мне ребята сказали). Дальше эти цифры мы записываем в Manticore и можно искать схожие товары между собой по векторам (цифрам).
Вот пример:
https://poisk.im/p/745285190732378584
https://poisk.im/p/702769798149490123
Два монитора, близость 0.92 между собой (схожесть).
Зачем? Мы используем для поиска похожих товаров и следующего матчинга. Все это работает без ускорителей, довольно шустро. А на картинке часть эмбендингов на два товара - вот так они выглядят в базе.
Русский ИТ бизнес