Ответ на пост «GigaChat от Сбера»7
Как человек который довольно сильно интересуется ml и лично разрабатывал некие простые подобия chat gpt и stable diffusion я скажу -
Архитектура модели gpt стандарт индустрии, ее используют 90% моделей, но сейчас в тренд начал входить CoT и MoE, но это другое. Про генерацию картинок.
Все зависит от датасета и токенизатора(да он влияет, обычный clip не справится )
Опять же архитектура stable diffusion (как и сама модель ) открытая, (не только веса, но и код ) архитектура этой модели уже допиленая, надёжная и проверенная.
Естественно это все будет на основе уже известных технологий.
Проблема про русский язык на картинках - я склоняюсь к выводу, что это недостаток датасета с русским текстом на картинках.
В любом случае это позор, можно было дообучить clip на русских парах (текст-картинка ) и либо написать свою модель инверсионной диффузии с нуля, либо файтюнинг готовых, открытых