Перенесёмся в 90-е, когда CV только начинало выбираться из лабораторий. И даже тогда, как и в 1970, это всё оставалось чем-то вроде фантастики, и работать приходилось с кучей проблем.
В начале 90-х Ян Лекун, амбициозный молодой учёный в AT&T Bell Labs, разрабатывал нейросети. Он создал первую CNN для распознавания рукописных цифр. И это было круто, хотя многие его коллеги считали это странной затеей. Тогда Ян им доказал, что глубокие нейросети могут решать задачи распознавания образов.
Тем временем в MIT Такэо Канадэ из Университета Карнеги-Меллон разрабатывал алгоритмы для 3D-реконструкции объектов. В 1992 году его команда сделала первую систему, которая могла снимать и создавать 3D-модели объектов. Это открытие стало прорывом для медицины, архитектуры и робототехники.
К середине 90-х Джитендра Малик из Калифорнийского университета в Беркли проделал проделал колоссальную работу по использованию графов для разделения изображения на области. Малик автоматизировал процесс выделения объектов на изображениях, что оказалось важным для медицинской диагностики и автономного вождения.
А к концу 90-х Канаде и его команда создали алгоритм для отслеживания движущихся объектов. Это доказало, что CV может работать в реальном времени.
Тогда же Дэвид Лоу предложил алгоритм Scale-Invariant Feature Transform (SIFT), который стал ключевым для обнаружения и описания локальных особенностей изображений. Теперь SIFT — основа для многих приложений в области CV, включая робототехнику и 3D-моделирование.
В 2000-х компьютерное зрение развивалось ещё быстрее. Появились базы данных изображений, такие как Caltech 101, ставшие стандартом для тестирования алгоритмов. Исследователи начали активно использовать ML для повышения точности и скорости своих моделей.
С появлением интернета и мощного “железа” CV стало внедряться во многие сферы, в которые на тот момент позволяли технологии.
Эти годы стали прорывным временем. И это несмотря на то, какое нелегкое оно тогда было.