В сентябре 2021 вышел Юникод версии 14. Постараюсь описать, что в нём нового.
Напоминаю: Юникод — это кодировка символов в наших компьютерах. Сейчас она содержит более 140 тысяч позиций, и ни один шрифт не поддерживает Юникод полностью.
Китайский, корейский, японский
Обычно в Юникод за раз добавляется от 2 до 6 тысяч иероглифов. В этот раз ККЯ-символов всего двадцать шесть. Зато много внутренних изменений в базах — например, для 6000 иероглифов уточнили кантонское начертание.
И самое интересное — создали базу необычных иероглифов: простых, сложных, симметричных… Приведу три рекордно-сложных иероглифа:
• U+30EDD бян (упрощённое написание), используется в количестве двух штук в названии китайской лапши бянбян.
• U+30EDE бян — он же, традиционное написание.
• U+3106C дайто/отодо — чисто японский иероглиф, означающий «вид дракона в полёте». Состоит из трёх иероглифов «облако» и трёх иероглифов «дракон». Long dragon is sooo loooong, как говорят (long — англ. «длинный», кит. «дракон»)…
Эти символы появились год назад в Юникоде 13, сейчас их просто отметили как необычные.
Бянбянная где-то в Сиане, Китай. Обратите внимание на иероглифы.
Арабский
Добавили в общей сложности 74 символа! — для арабского это рекорд.
Бошняцкий (диалект сербохорватского, который часто пишут арабицей), пегон (запись яванских языков арабскими буквами) — этим никого не удивишь. Где ислам, там арабица. Интереснее другое.
Добавлено 33 знака из комментариев к Корану — например, из Корана издания короля Фахда аль-Сауда (а это, извините, почти современность, этот мэн умер в 2005).
Декламирование Корана — важное занятие ардритов мусульман с планеты Земля, и это подсказки для чтеца, которые придумал некто Варш, живший в Египте, получивший своё прозвище за светлую кожу (варш — местное название какого-то молочного продукта) и умерший в 810.
Второе интересное добавление — четырнадцать символов — связано с деятелями ислама. Но разрешите сначала процитировать знаменитую сказку.
И Сулейман ибн Дауд — мир с ними обоими! — приказал принести два сосуда: один медный, а другой глиняный, и заточил меня в глиняном сосуде, а брата моего, Омара Хоттабовича,— в медном.
Подобных шаблонных фраз в исламе хватает, и их сокращают в лигатуры. Вот, например, «да будут освящены его тайны» — о суфийских святых.
Хотели добавить ещё подобных фраз, но… нашли в шрифтах, зато не обнаружили в печатных текстах. Ну и обратите внимание на развёрнутый вопросительный знак — это отдельный арабский символ U+061F, существовавший с самого первого Юникода.
После всех этих добавлений в базовой плоскости осталось 16 нераспределённых позиций. И я даже вангую, на что их пустят — в Юникоде 15 и 16 ни на что. А в дальнейшем — на символы разного назначения, которые кровь из носу должны быть именно в базовой плоскости (например, валютные).
Две новых письменности для умирающих языков
Тото — маленький сино-тибетский язык, используемый в деревне Тотопара (Восточная Индия) племенем тото (1400 человек на 2014). Пишут бенгальской или собственной алфавитной письменностью, которую придумал в 2015 старейшина Дханирам Тото. По интернету ходит очень красивый шрифт неизвестного авторства (SIL International? — авторы «Шехерезады», одного из лучших арабских шрифтов). Запись слева направо.
Одно и то же слово, записанное тото, бенгальским и латиницей.
Тангса или тасе-нага — семейство сино-тибетских языков на 100 тысяч человек (Мьянма, Северо-Восточная Индия). Письменность — различные виды латиницы (то есть нет стандарта на всех — видимо, связано с тем, что в языках четыре тона). В 1990 индиец Лакхум Моссанг создал алфавит и до смерти в 2020 обучил ему около 100 человек (напрашивается картинка с xkcd про стандарты). Запись слева направо.
Четыре с половиной исторических письменности
Кипро-минойское письмо — частично расшифрованная слоговая письменность с написанием слева направо, использовавшаяся во II тысячелетии до нашей эры. Шансы на исчерпывающую дешифровку призрачны: все известные надписи насчитывают 2500 символов. Для сравнения: нерасшифрованное линейное письмо А — 7 тысяч, линейное письмо Б на момент расшифровки — 30 тысяч.
Староуйгурское письмо — промежуточное между согдийским (консонантное, справа налево по строкам, при этом текст часто опрокидывали на 90° влево — получалось слева направо по столбцам) и старомонгольским (чистый алфавит, только слева направо по столбцам). Использовалось около 700…1800.
Компьютерное кодирование по согдийскому принципу — запись справа налево, на 90° влево опрокидывают программно. Вертикальный монгольский — как старо-, так и квадратный Пагба-ламы — наоборот, записывается слева направо и опрокидывается на 90° вправо.
В общем, видно, что вертикальное письмо сделано из заваленного горизонтального, писавшегося справа налево.
Знáменное пение — православная традиция одноголосого пения, появившаяся около XI века и сохранившаяся у старообрядцев (в современных церквях пение многоголосое). Знамёна указывают выпеваемую фигуру, а высота задаётся так называемыми признáками, часто красного цвета. Если европейские ноты в Юникоде нефункциональны, позволяют записать простым текстом разве что «Кузнечика» и служат в первую очередь для упрощения жизни программистам нотного ПО, уменьшения нотных PDF’ов, то для знаменного пения проект «Пономарь» сделал полностью рабочий шрифт. Это, видимо, и впечатлило Консорциум.
А ещё посмотрите, как смешно называются символы в таблице Юникода: Znamenny combining mark Nizko s kryzhem on left.
Виткутьский алфавит для албанского языка. В эпоху становления национальных государств (около 1800) известно как минимум четыре местечковых албанских алфавита. Причины две: конспирация от турок (Албания получила независимость в 1912 с распадом Турции) и желание местных просвещённых умов иметь свой алфавит, как у греков и славян.
Назван по селу Виткуть, родине изобретателя.
Ну а что за половинка? — сильно перерисовали египетские иероглифы по консенсусу египтологов. Например, женщина была с бородой, стала без, в пику Кончи́те Вурст. Причём видно, что случилось: исходные изображения 2009 года были достаточно историчными, но некачественными. В 2016 заменили изображениями, близкими к шрифту «Hieroglyphica» — красивыми, но не всегда правильными.
Эмодзи
Эмодзи, то есть картиночки для сокращения SMS и твитов — ну как без них?
Тролль — должен означать не столько сказочное существо, сколько интернет-провокатора. В транспортных символах добавили колесо и спасательный круг. В прочих — диско-шар, лотос, гнездо с яйцами и без, севшую батарейку.
Добавилась хамса — распространённый в иудаизме и исламе оберег в виде руки с глазом.
Ты нарисовал плакат с пальцем? — появился палец, указывающий на зрителя. А также руки сердцем.
Лицо с диагональным ртом — простой смайлик, набираемый текстовыми символами :-\ Даже удивительно, почему его не было раньше.
Лицо с открытыми глазами и рукой поверх рта — это попытка Консорциума как-то стабилизировать разнобой глифов. Дело в том, что Microsoft и Google отображают смайлик 1F92D «лицо с улыбающимися глазами и рукой поверх рта» правильно (сдерживает смех). А у Apple и Facebook глаза широко открыты — удивление или ужас. Этот самый ужас перенесли на другую кодовую позицию.
Ну и как я не мог упомянуть самый главный эмодзи Юникода 14 — беременного мужчину? Таковой действительно существовал — Томас Бити, Ж→М-транс, выносивший трёх детей, будучи по документам мужчиной. Хотя главной причиной была инклюзивность, автор «Эмодзипедии» — между прочим, член комитета Консорциума по эмодзи — заявляет, что англичане могут «наесться до беременности», то есть до такого отвала, что плохо себя чувствуют. А у нас «беременный» — это с пивным пузом.
Появился и просто «беременный человек» — как для тех, у кого тяжело с осознанием пола, так и для женщин с короткой причёской (большинство эмодзи бесполы, и чтобы сделать картинку мужчиной или женщиной, нужно добавить дополнительные символы).
Прочее
Из валютных символов добавился киргизский сом.
В эфиосемитском языке себат-бет (эфиопское письмо) в 2013 случилась орфографическая реформа, которая дала письменность всему семейству гураге. Канадская слоговая письменность захватила эскимосов инуитов племени наттилик. Несколько редких символов латиницы. Все три письменности впервые обзавелись блоками за пределами базовой плоскости.
Ну и напоследок немного самопиара. Я автор «Юникодии», справочника символов для Windows. Качать тут.