4

Про векторизацию

Про векторизацию. Мы стали использовать библиотеку MiniLM-L12-v2 для создания эмбендингов. Она из текста делает 256 цифр (я упрощая пишу, как понял что мне ребята сказали). Дальше эти цифры мы записываем в Manticore и можно искать схожие товары между собой по векторам (цифрам).

Вот пример:

https://poisk.im/p/745285190732378584
https://poisk.im/p/702769798149490123

Два монитора, близость 0.92 между собой (схожесть).

Зачем? Мы используем для поиска похожих товаров и следующего матчинга. Все это работает без ускорителей, довольно шустро. А на картинке часть эмбендингов на два товара - вот так они выглядят в базе.

Русский ИТ бизнес

Про векторизацию Кросспостинг, Pikabu Publish Bot, Telegram (ссылка)