Как из перехода от нормативной к дескриптивной лингвистике - произошёл искусственный интеллект
Для ЛЛ: Глокая куздра штеко будланула бокра, получился бокрёнок, назвали его ChatGPT.
Вот знаете, какая интересная штука вырисовывается, если копнуть. Мы же все слышали про этих строгих филологов-нормативщиков, да? Этакие хранители эталона, которые с линейкой и циркулем выверяют каждый звук. Ломоносов, Ушаков, Ожегов... Их дело — создать канон, правила. Без них — хаос, невозможность общего языка у врача, инженера, юриста. Они провели главные улицы и проспекты языка.
Но ведь язык — он как живой организм, понимаете? Он всё время растёт, дышит, меняется. В нём есть не только парадные подъезды, но и тёмные переулки, базарные площади, молодёжные тусовки — сленг, диалекты, просторечия. И долгое время на всё это смотрели свысока, как на сорняки. Хотя, конечно, какие-то энтузиасты, вроде Даля, эти «сорняки» исправно коллекционировали — но больше как диковинку, а не как главное содержание.
А потом пришли другие учёные — «наблюдатели». Их философия, дескриптивизм, родилась в основном в западной лингвистике*, но нашла свой яркий отклик и здесь.
Наш академик Лев Щерба был из тех, кто великолепно чувствовал этот подход. Он не был родоначальником, но стал его мощным глашатаем в отечественной науке. Помните его знаменитую «Глокую куздру»? Это был манифест: мы чувствуем грамматику даже в полной бессмыслице, важно описать сам механизм, а не только оценивать правильность! Но дело было не только в теории.
Практический толчок дали такие люди, как американский лингвист Чарльз Фергусон, который в 60-х изучал, как люди на самом деле говорят по телефону, или Уоллабх Ли, который анализировал живые диалоги. Они поняли: чтобы понять, как язык работает в жизни — в бытовой ссоре, в рабочем инструктаже, в дружеской переписке — одних правил мало. Нужно смотреть на реальность.
*Дескриптивизм как метод сложился в первую очередь в американской структурной лингвистике начала XX века (Франц Боас, Эдвард Сепир, Леонард Блумфилд), часто в работе с индейскими языками, у которых не было письменной нормы и их можно было изучать только через живое описание. Щерба, работавший в то же время, был великим мыслителем, который независимо пришёл к очень схожим идеям о приоритете изучения живой речи и системного подхода к языку.
Эти «наблюдатели» и начали тихую революцию: они стали собирать всё подряд. Не только Толстого и Чехова, но и вывески, объявления, байки из цеха, песни, анекдоты, поздние разговоры на кухне — всю ту живую, нестриженую речь, от которой классический филолог брезгливо отворачивался. Всё это они складывали в гигантские электронные хранилища — так появились первые языковые корпуса. Просто склад. Сокровищница всего, что когда-либо было сказано и написано.
И долгие годы этот склад просто пылился. Пока не пришло его время.
А время пришло вместе с попыткой заставить машины понимать человеческую речь. И тут оказалось, что сухих правил и словарей Ожегова категорически недостаточно не только чтобы полноценно понимать язык - между людей. С машинами - та же проблема.
Пионеры вроде Джона Синелер, который в 90-е создавал первые большие корпуса новостных текстов для машинного обучения, понимали: чтобы научить компьютер хоть как-то чувствовать язык, ему нужно скормить не выхолощенный эталон, а всю ту самую живую, шершавую, порой неграмотную речь во всём её невероятном разнообразии. Весь тот гербарий сорняков, который десятилетиями собирали «наблюдатели», вдруг оказался бесценным сырьём, золотой жилой.
И вот этот — весь, целиком, неотсортированный — язык, все эти корпуса, скормили нейронным сетям. Компьютеру ведь всё равно, что перед ним: сонет Шекспира или ругань в пробке. Для него и «ликбез», и «краш», и «дОговоры», и «договорА» — просто статистические связи, вероятности, узоры. Он искал в этой гигантской куче не предписанные правила, а самые крепкие, самые частые пути, по которым слова любят соединяться друг с другом.
И произошло почти что чудо. Из этого гигантского цифрового отражения всего языка, в создании которого участвовали и хранители нормы, и собиратели живого слова, — родился тот самый искусственный интеллект, который мы все знаем. Он получился живым и гибким именно потому, что его учили на всей полноте языка, а не на одном лишь эталоне. Он понимает наши шутки и иронию именно потому, что в его памяти есть не только академические тексты, но и бесчисленные чаты и форумы.
Так что выходит, наш сегодняшний разговор с нейросетью — это, в каком-то смысле, тихая победа тех самых «наблюдателей». Победа любопытства над догмой, разнообразия над единообразием. Красивая история о том, как стремление понять жизнь во всей её полноте, а не по одним лишь учебникам, в итоге подарило нам одно из самых удивительных технологических чудес.