Эти годы были настоящей золотой эпохой для компьютерного зрения. Именно тогда были заложены основы многих современных технологий, которые мы используем сегодня.
Представьте себе: огромные компьютеры, зелёные экраны и группа умных людей, которые пытались научить машины видеть мир так же, как это делаем мы.
Одним из ключевых игроков того времени был Дэвид Марр. Он, как и Ларри Лоуренс, задался вопросом: "Как, черт возьми, мы можем научить машину распознавать объекты на изображениях?". Марр решил подойти к проблеме комплексно и предложил свою теорию обработки изображений, разделив её на три этапа.
1 этап — примитивное изображение
На первом этапе компьютер должен был научиться выделять края и контуры. Представьте, что вы смотрите на картину и сначала видите только контуры объектов. Марр и его команда разработали методы, которые помогали компьютеру находить эти границы. Таким методом стал оператор Собела, который до сих пор используется для выделения границ на изображениях.
2 этап — символическое изображение
Следующий шаг — научить компьютер распознавать, что же это за объекты. Это что-то вроде пазла: сначала вы видите отдельные кусочки, а затем пытаетесь собрать из них целое изображение. Так и появилась сегментация, когда контуры объектов соединялись и образовывали узнаваемые формы.
3 этап — интерпретация изображения
Когда объекты на изображении распознаны, компьютер должен не просто увидеть их, но и понять их взаимосвязь и контекст. Это примерно как разглядеть на фотографии людей, стол и еду, и понять, что они не просто сидят за столом, а едят вместе. А раз они едят вместе, возможно, это одна семья, родственники или друзья… И вот у нас уже вырисовывается история, которую и должен распознать компьютер!
Марр и его коллеги также разработали множество алгоритмов, которые сделали революцию в компьютерном зрении. Среди них были методы обнаружения краев, такие как оператор Канни, который до сих пор считается одним из лучших методов для выделения границ объектов. И о котором, кстати, мы поговорим завтра.