Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Лови знакомую рыбу, открывай новые места и стань мастером рыбалки в сердце России!

Рыбалка по-русски

Казуальные, Симуляторы, На ловкость

Играть

Топ прошлой недели

  • Animalrescueed Animalrescueed 54 поста
  • paranoidLynx paranoidLynx 11 постов
  • AlexKud AlexKud 35 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
15
Mercury13
1 год назад
ИТ-проекты пикабушников
Серия Энциклопедия символов «Юникодия»

Энциклопедия символов «Юникодия»: отчёт весны 2024⁠⁠

Напоминаю: я пишу программу под Windows — энциклопедию символов и самую лучшую замену стандартной Таблице символов. Качать тут. Выглядит примерно так.

Вот она, моя прога

Вот она, моя прога

И первое, что видно…

Любимые символы

Новая вкладка

Новая вкладка

Какой-то фанат накидал мне целую панамку функциональности, и один его пункт я сделал, ибо нет технических препятствий и сумел просчитать все интерфейсные обоснования. (Скажем, масштабирование я не сделал потому, что функцию попробуй обнаружь в интерфейсе, а если случайно изменил масштаб, непонятно, как вернуть.)

Можно создать список каких хочешь символов — например, часто используемых типографских. Или просто закладки на полноценные блоки: нажатие на синюю стрелочку около «U+1FAF6» переходит на вкладку «Блоки».

Подтягиваются шрифты

Руки Noto

Библиотека Noto к 15-му Юникоду привезла новые руки, вы уже их видели на заглавной странице — сделанные двумя цветами и как бы снятые широкоугольным объективом. Я их откладывал как из-за трудоёмкости, так и из-за сомнений: а достаточно контрастности? Оказалось, Юникодия приняла новые руки без вопросов, а BitBucket стал хуже — ну не смотрятся на размере пикселей в 15. А Slack вообще отказался принимать эти руки.

Все руки, кроме одной, автоматически перекрашиваются, и для тестирования этого механизма я сделал целую утилиту: а что в картинках изменилось? Обнаружил, кстати, много других глюков.

Разница между «было» и «стало», усиленная раз в 20

Разница между «было» и «стало», усиленная раз в 20

Видите, у вампирши яркие брови и тусклое лицо? Это значит, были какие-то ошибки в перекраске.

Изначально перекраска ставила целью экономить механическую работу, а не байты архива. Некоторые SVG-эмодзики глючили, я глюки исправлял — а чтобы исправить один раз, а не шесть, пять цветов кожи генерировались. Теперь, когда можно сравнивать «было/стало», можно и поэкономить, и десятка полтора человечков перекрашиваются — для пользователя не изменилось ни пикселя.

Египетские иероглифы

Был шимпанзе, стал гамадрил

Был шимпанзе, стал гамадрил

В 2009 году, когда кодировали иероглифы, их брали из трудов Алана Гардинера — историчные, но корявые. В 2016 их заменили на профессиональный шрифт, возможно, Hieroglyphica, слегка погрешив против истины. С 2021 истину стали восстанавливать.

Лишь две строчки из большого списка

Лишь две строчки из большого списка

Мы работали вдвоём с немецким египтологом — я рисовал, он проверял. Когда он без предупреждения пропал, я спрашивал: а что с ним? Оказалось, уехал «в поля». Так и не сказал мне, насколько опасно/безопасно было в Египте.

Примерно 60% изменений — это люди. А именно: у действующего фараона прямая борода, у бога и бывшего фараона — длинным крючком (за исключением Пта, у него фараонская), у египтянина — короткая, у сирийца — острая. Кроме того, коровы, обезьяны, лодки и многое другое — около 70 иероглифов.

Ланна

Северотайская письменность, сейчас в опасности, одна из красивейших письменностей мира.

Северотайская Библия. Тайское письмо и ланна

Северотайская Библия. Тайское письмо и ланна

В 1930-е ланна была заменена тайским письмом, и используется больше меньшинствами (тай-кхынами, лы), до которых националисты не дотянулись. Так что многие надписи на северотайском пишут и тайским письмом, и ланной.

Меня просто давила жаба: такая красота — и шрифтом без засечек? После долгих поисков нашёл шрифт, который корректно рисует хотя бы простейшие надписи из Википедии.

Ланна: было/стало

Ланна: было/стало

Символы каны для записи иностранных языков

Конкретно эти придуманы японцами незадолго до 2МВ

Конкретно эти придуманы японцами незадолго до 2МВ

Движок GlyphWiki не очень подходит для рисования таких символов, и я плевался, когда вычищал. Нашёлся человек, нарисовавший их вручную.

Прочая функциональность

Предупреждение о других формах эмодзи. У некоторых эмодзи бывают другие формы — устаревшие, некорректные и просто другие. Современный флаг Афганистана, белый с шахáдой (девизом ислама), никто не принимает и рисует старый 2021 года. Пиньята (начинённая конфетами игрушка) бывает в форме звезды и в форме животного. Автобусную остановку рисует каждый свою местную. Микроб — рисуют бактерии, амёбы и даже КОВИД.

Вот, например, флаг Мартиники

Вот, например, флаг Мартиники

Вычищаю ложь. Я, конечно, стараюсь проверять, что пишу, но иногда не получается. Например: есть аж два «эльбасанских письма» для албанского: одно было известно с самого начала, ибо его изобретатель, «учитель Тодри», всю жизнь его пропагандировал, пока не убили (будет этой осенью под именем «Todhri»). Второе — единственный образец изъяли в 1945 у расстрелянного коллаборациониста, коллекционера и филолога (есть с 2014 под именем «Elbasan»).

Эльбасанское Евангелие / Три молитвы шрифтом Тодри

Эльбасанское Евангелие / Три молитвы шрифтом Тодри

Или не очень верно написал, что такое ночная азбука Барбье: она использует матрицу 2×6, но код там не двоичный, а сколько точек в левой колонке и сколько в правой — таким образом получается 6·6=36 букв.

Шарль Барбье, зрячий военный. И Луи Брайль, слепой учитель.

Шарль Барбье, зрячий военный. И Луи Брайль, слепой учитель.

Последнее — про азбуку Брайля отлично рассказала Юлия Большакова, так что закончим её рассказом.

Спасибо за внимание!

Показать полностью 11 1
[моё] Unicode Таблица Шрифт Письменность Программа Видео YouTube Длиннопост
4
12
Mercury13
1 год назад
ИТ-проекты пикабушников
Серия Что нового в Юникоде

Одним глазком в Юникод 16.0⁠⁠

Юникод 15.1 пока не поддерживается никем и никак. Но к 16.0 уже готовятся: 1 ноября приняли первые семь эмодзиков. Окончательный выпуск будет осенью 2024.

Эмодзи

Вот она, великолепная семёрка

Вот она, великолепная семёрка

Колобок с мешками под глазами — усталый, измученный, похмелье, бессонница

Отпечаток пальца — биометрия, место преступления, мелочи, опознание

Корнеплод — свёкла, дайкон, редька, борщ, репетиция, дать в репу

Голое дерево — осень, зима, засуха, экология, депрессия

Арфа — лира, кифара, цитра, классическое исполнительское искусство, Ирландия

Лопата — откопать, подкопать, закопать (прямо или фигурально), вкалывать

Клякса — грязь, пятно, праздник Холи, краска, соус, пейнтбол

Автоматически вместе с кодом государства появился Сарк, островок в Ла-Манше, владение Великобритании.

600 человек, и уже код государства CQ

600 человек, и уже код государства CQ

Кириллица

Добавлена одна буква, появившаяся в 2013 году,— ТЬ из языка ханты (уральская семья, 9 тыс. на 2010). Очевидная лигатура из Т и мягкого знака.

Типа их алфавит

Типа их алфавит

Автор заявки — пикабушник! Мне казалось, что это единственная действующая буква из 16-го Юникода, но нет: есть ещё заглавная буква ɤ, придуманная в 2014 для языка восточный дан (Кот-д’Ивуар, 650 тыс., неписьменный). И целый алфавит гарай.

Около 700 символов со старых компьютеров

Вот лишь немногие из этих символов

Вот лишь немногие из этих символов

Amstrad CPC, Apple II, Mattel Aquarius и множество других. Полагается, что значимые старые платформы исчерпаны и больше символов со старых компьютеров не будет. Вот, как пример, карты ханафуда на одном из японских терминалов.

В этом увидят красоту разве что японцы

В этом увидят красоту разве что японцы

Вы только посмотрите на их изобретательность: мордашки, кресты, машинки, диоды, резисторы — и из всего этого нарисовали карты.

Алфавит Тодри

Алфавит Тодри. Авторское Послание к евреям

Алфавит Тодри. Авторское Послание к евреям

Тип: алфавит, слева направо, без регистра, экспериментальный

Язык: албанский (на то время — арабица)

Существовал: середина XVIII века…≈1800

Албанский язык, очень далёкий родственник современного греческого, под властью турок несколько веков использовал арабскую вязь. И просвещённые умы около 1800 придумывали другие алфавиты — частично для конспирации от турок, частично для культурной автономии. Уже закодированы виткутьский алфавит (≈1850) и алфавит Эльбасанского Евангелия (до 1800). Вот перед нами третий образчик, также использовавшийся в районе города Эльбасана. Потому алфавит также нередко зовётся «эльбасанским», и чтобы одно не путать с другим, назвали в честь автора — Теодора Хаджифилиппа по прозвищу «учитель Тодри».

Гарай

Гарай. Авторский букварь

Гарай. Авторский букварь

Тип: алфавит, справа налево, с заглавными, экспериментальный

Языки: волоф (6,9 млн на 2017, латиница, арабица, адлам); мандинка (2,1 млн ≈2020, латиница, арабица, нко); оба — Сенегал, нигеро-конголезская семья

Существовал: с 1961

Что такое 1961? Это типа освобождение Африки, и некто Ассане Файе из Сенегала придумал вот такой алфавит. В любом случае в конкуренции победила латиница и количество грамотных в гарае в наши дни исчисляется сотнями, но письменность не умерла и изучается.

На ум приходит знаменитая шутка из комикса xkcd

На ум приходит знаменитая шутка из комикса xkcd

Заглавная буква снабжена большим крючком. В конце слова часто добавляют длинный хвост, что, впрочем, не обязательно и будет поддерживаться шрифтами лишь когда туда добавится Тьюринг-полное программирование. Есть и другие места, где разработчики шрифтов ждут настоящего программирования: сложные стили арабского, египетские иероглифы, европейские ноты, стенография Дюплойе.

Тигалари (=западная грантха, тулу-малая́лам, грантха-малая́лам)

Тигалари. Книга санскритом на пальмовом листе

Тигалари. Книга санскритом на пальмовом листе

Тип: брахмийская абугида (особый вид слоговой письменности родом из Индии), слева направо, религиозная

Языки: санскрит (индоевропейская семья), кáннада, малая́лам, тулу (все три — Западная Индия, дравидийская семья). На последнем чаще пишут кáннадой и даже на переписях относят к говорящим на кáннаде.

Существовала: IX…XVII век, крайне редко поныне

Письменность сестринская с уважаемой письменностью малая́лам, и крайне мало используется в индуизме.

Подход к кодированию живых и исторических индийских письменностей очень разный. например, в деванáгари (крупной письменности для хинди, маратхи и более мелких языков):

  • क [ка] = ка

  • क् [к] = ка + вирама

  • क्ष [кша] = ка + вирама + ша

  • क्षी [кши:] = ка + вирама + ша + ии

Сделано это, чтобы задействовать поменьше клавиш на стандартный стиль — а если нужен другой, есть спецсимволы, которые можно хоть через AltGr. Сложно, но не все в Индии «индусы», есть и те, кто запрограммирует как надо.

В исторических письменностях разделяют видимую вираму (убирает гласную A) и виртуальную вираму (=conjoiner, склеивает согласные). Это упрощает создание шрифтов, перепечатывание документов в авторской орфографии, прочтение авторской орфографии на неполноценном шрифте.

Conjoiner — спецсимвол, склеивает согласные. Virama — видимая, убирает гласную

Conjoiner — спецсимвол, склеивает согласные. Virama — видимая, убирает гласную

Цифры берут кто на какие горазд, предлагается унифицировать с кáннадой.

Но это не всё!

Юникод 16.0 — это будет мега-обновление! (В 2022 Консорциум Юникода потерял двух ключевых людей и вынужден был сделать небольшой выпуск.) С новой пачкой эмодзиков будут:

  • сунвар (Непал, алфавит без регистра, 1942)

  • гурунг или кхема (Непал, брахмийская абугида, около 1972)

  • кират-рай (Индия, брахмийская абугида, около 1920)

  • ол-онал (Индия, алфавит без регистра, 1992)

Я пишу программу «Юникодия» — энциклопедию символов Юникода. Качать тут.

Показать полностью 9
[моё] Unicode Письменность Эмодзи Длиннопост
9
17
Mercury13
2 года назад
ИТ-проекты пикабушников
Серия Энциклопедия символов «Юникодия»

Энциклопедия символов «Юникодия» v2.1: что нового⁠⁠

Напоминаю: я пишу программу под Windows — энциклопедию символов и замену стандартной Таблице символов. Качать тут. Выглядит примерно так.

Новые подборки: Наука и техника, Латиница

Математика и астрология — две самых разбросанных по Юникоду подборки небуквенных символов. Пришлось как-то собирать воедино.

Также есть черчение и электричество, но это совсем маленькие подборочки.

(Может, когда-нибудь доберусь до комментариев к шахматным партиям, тоже интересный набор.)

Впоследствии придумал такой же рубрикатор для латиницы. Внешне это просто папочки в тех же Подборках, но за ними стоит небольшой движок, проверяющий: а ничего я не забыл? А точно заглавная буква стоит рядом со строчной?

Вообще есть три способа добраться до буквы расширенной латиницы — например, капительной I (ɪ), знакомой нам по английской транскрипции.

  1. Поискать среди вариаций буквы I.

  2. Поискать в символах английской транскрипции.

  3. Поискать в капительных буквах.

Отсюда три подборки для латиницы — по букве, по стране и по шрифту.

Пока ничего не придумал для нестандартных букв латиницы, чьи корни нелатинские: торн þ (от руны), бараньи рога ɤ (Википедия говорит, от греческого, но подозреваю, от старой кириллицы — это гласный, близкий к «у»), гортанная смы́чка ɂ (от надстрочных знаков), пятый тон Ƽ (от цифры) и прочая нечисть.

Юникод 15.1 бета

Добавлен полностью, без единого тóфу, на правах бета-версии, за двумя исключениями.

  1. Китай решил ответвиться от Юникода и добавить 614 иероглифов в пока не используемую плоскость 0A. Чтобы пресечь это вредительство, иероглифы быстренько проверили (получается, 603 из них новые и 11 повторных). На GlyphWiki творится такой беспредел, что не поймёшь, какие изображения верны, остаётся только ждать стабильного Юникода.

  2. Не перерисованны глифы в тангутском и алхимических символах.

Состав строки в Подборках

Как видите, в новом эмодзике целых восемь символов! Данное отображение — компромисс: минибраузер плохо выводит картинки в HD, а горизонтальная линейка красива, но не показывает названий.

Проверка обновлений

Пока самая простая, использующая функциональность GitHub. Качать и устанавливать всё равно придётся вручную.

Подтягиваются шрифты

Появился Noto Kawi, так что теперь не нужен выпрошенный у кого-то несвободный шрифт с балийско-яванской кодировкой. Новые символы в балийском, кáннаде, ходжки и других теперь полноценные, а не затычки.

Убрал жестокие тормоза с корейско-японскими символами на Windows 7 — не думал, что причиной будет один гугловский (!) OTF. Сильно урезал и переименовал, по своей новой традиции, из Noto в «Юто» (простите, по-английски не напишешь — автоцензура кидается).

Новый шрифт жестового письма Саттон: глифы гугловские, таблицы собственные.

Полностью перебраны изображения базовых умляутов (0300…036F): здесь «хорош» как Cambria, так и Noto, пришлось делать свои изображения-затычки.

Нарисовал символы затёртых египетских иероглифов так, чтобы походило на монохромные глифы. Сильно мешает дыра в функциональности Inkscape: не может превращать узорную заливку в контуры, и всё тебе, пришлось собирать штриховку вручную.

Также нашёл шрифт с древней глаголицей, и это внесло в Юникодию…

Переключаемый стиль

Существуют два стиля глаголицы, болгарский и хорватский. Оба унифицированы, главным считается болгарский — понятнее, если нарисовать современной типографикой. А почему бы не показывать тот или другой, на выбор?

Впоследствии реализовал и другой стилевой канал: существует семейство письменностей, восходящих к согдийской, которое пишется сплошной вязью слева направо по столбцам! В Юникоде они пишутся кто слева направо, кто справа налево, и теперь есть выбор: показывать горизонтально или вертикально.

Язык оригинала — английский

Изначально был русский, но это мешает привлекать переводчиков. Переход на английский потребовал две функции от программы-переводчика:

  1. Преобразовать проекты в новую форму.

  2. На украинский проще переводить с русского, чем с английского. Думал, думал, и решил, что будет второй перевод — «справочный». Никакой формальной силы он не имеет: если в русском что-то изменится, украинец ничего не обязан. Допустимы «порочные круги», когда русский, в свою очередь, смотрит на украинский.

Прочие мелочи

Написал свой механизм работы с формами множественного числа: «71 символ».

Добавлена история поиска.

Спасибо!

Показать полностью 11
[моё] Unicode Программа Таблица Шрифт Письменность Длиннопост
13
27
Mercury13
2 года назад
IT минувших дней
Серия Доступно об АйТи

Доступно об АйТи: Почему Буш скрыл факты?⁠⁠

Я сейчас опишу две старых фишки программ Microsoft — одна ошибка, а другая просто старый мем.

Bush hid the facts

Как повторить: на Windows линейки NT, до XP включительно, написать в Блокноте «Bush hid the facts» и сохранить файл. При открытии получим китайские иероглифы — или тофу («квадратики»), если в системе нет китайского шрифта. Другое ПО (например, WordPad) показывает, что файл в полном порядке.

Мем появился при Буше-младшем, но ошибка появилась в 90-е, вскоре после правления Буша-старшего. И заключается она вот в чём.

Долгое время символ текста совпадал с байтом — минимальной единицей памяти и телекоммуникаций. Разных байтов всего 256, этого хватает на английский и местный язык. И даже если местный язык всего один (например, русский/украинский), появилось множество разных кодировок, призванных обойти важные символы той или иной базовой кодировки. Так, в кодировке DOS (=CP866) обходили псевдографику, в кодировке Windows (=CP1251) — типографские символы и управляющий знак «мягкий перенос», кодировку КОИ-8 подгоняли под старое почтовое ПО, убиравшее верхний бит. И появился термин крокозябры — текст не в той кодировке.

А уж сложный текст (например, по языкознанию), содержащий санскрит и древнерусский ять ѣ, так вообще не напишешь. И тогда в начале 90-х придумали Юникод, тогда ещё просто двухбайтовую кодировку — один символ кодируется двумя байтами. Windows NT изначально писалась юникодной, и там появилась функция IsTextUnicode, проверявшая статистикой, чем, скорее всего, является строка байтов — текстом в однобайтовой кодировке или текстом в Юникоде. Функция существует и поныне, однако Блокнот её давно не использует.

Статистика была проста: длина строки чётная, и чётные байты меняются значительно меньше, чем нечётные. Так что к ложным срабатываниям приводят строки «hhhh hhh hhh hhhhh» и «this app can break».

Хочу избежать службу в армии

Как повторить: на старых версиях Word с русским словарём производства «Информатик» включить проверку грамматики и написать: «Хочу избежать службу в армии». И смотреть, что она выведет.

Это, как говорят, не баг, это фича. В русском языке есть три метода сборки слов в словосочетания:

  • примыкание: зависимое слово неизменяемое и просто прицепляется к главному: бежать быстро, бежал быстро. Если в слове «бежал» некоторые учителя выделяют нулевое окончание, то в слове «быстро» окончания нет никакого, ведь наречия не изменяются.

  • управление: зависимое слово встаёт в конкретную форму: встретить маму, встретил маму. Встретил мамы — бессмыслица, а встретил без мамы — совсем другое словосочетание.

  • согласование: слова изменяются синхронно: чёрный хлеб, чёрного хлеба.

«Информатик» просто завёл базу главных слов, и для каждого указал, каким бывает зависимое. И резонно указал, что глагол «избежать» требует родительного падежа — «хочу избежать службы в армии».

Показать полностью 2
[моё] Баг IT Русский язык Unicode Грамматические ошибки Windows XP Microsoft Word Длиннопост
13
20
Mercury13
2 года назад
ИТ-проекты пикабушников
Серия Доступно об АйТи

Как устроены эмодзи⁠⁠

Эмодзи (от японского «э» — картинка и «модзи» — знак) — язык пиктограмм, используемый в текстовых сообщениях. Будем говорить исключительно об эмодзи Юникода, как о самых распространённых.

История

В некоторых компьютерах мордашки включали в наборы символов: так, у компьютеров IBM (1981) две мордашки имели коды 1 и 2. Но пользоваться ими проблематично: их нет на клавиатуре, привязаны к платформе, да и коды 0…31 часто имеют собственное управляющее значение.

Смайлик :-) придумали на заре Интернета, в 1982 году.

Конец 1990-х. Везде графика, и в различных системах интернет-общения появилась функция: отыскать в тексте :-) и заменить графической рожей. Кто помнит этот стиль смайликов?

Главный недостаток такого кодирования через особые последовательности — попробуйте передать текст программы, и гарантированно будет ложная замена. Например, в записи f(8) находит смайлик в очках 8).

Было время, когда SMS’ки стоили дорого, и мы экономили символы. Экономили и японцы, и мобильный оператор DoCoMo в 1999 придумал вот такие символы, их и назвали «эмодзи». Кодировка символов собственная докомовская.

В середине 2000-х годов смайликами обзавелись как Гугл в своей почтовой службе, так и Эпл в айфонах. Возник вопрос межплатформенного обмена смайликами, и консорциуму Юникода в 2010 году осталось только возглавить бардак, который они не в силах предотвратить, тем более свободных позиций в Юникоде всё ещё предостаточно: в ожидаемом Юникоде 15.1 пока 150 тысяч символов из 900 тысяч доступных. Добавляли понемногу, по несколько сотен, пока около 2018 не добавили все.

Совет: мало кто знает клавишу Win+; (точка с запятой) или Win+. (точка) из Windows 10+. Она выводит панель символов, в том числе эмодзи.

В том же 2018 Гугл, имея сильные позиции в Консорциуме, добавил эмодзи инклюзивности: по умолчанию большинство эмодзиков бесполые, мужской или женский пол задаётся специально.

Что такое «бесполый»: не имеет явных признаков мужчины или женщины. Нет сисек или усов; одежда, аксессуары и причёска унисекс. Например: у Гугла мужчина-вампир носит бабочку, женщина — чокер, а бесполый — горжет. Конечно, сделано в первую очередь для небинарных, но, извините, «палка-палка-огуречик» тоже бесполый. И вообще хорошая мысль: передавать идею, очищенную от дополнительных смыслов. А если те нужны — устанавливаются дополнительно.

А пока…

Немного теории

Символом будем называть всё, что есть в кодировке: печатаемые символы, управляющие команды, незанятые позиции…

Любая кодировка заключается в замене символов на кодовые последовательности: например, пробел=32, A=65, B=66… Но Юникод пошёл дальше: как только символ попадает в Юникод, ему присваивается кодовая позиция — номер от 0 до 1 114 111 (или от 0 до 10FFFF в шестнадцатеричной системе). А за биты и байты отвечают форматы передачи: UTF-8, Punycode и другие. Вы и сами, если умеете программировать, можете придумать свой формат передачи Юникода.

Если символа нет в шрифте, рисуется белый квадратик тофу, в честь японского соевого сыра тофу.

Заблуждение: Ну что такое, в новом Юникоде теперь крупные эмодзи.

Реальность: Насколько крупно рисовать — это дело прикладного ПО. Задача Юникода — сделать, чтобы все эплы, гуглы и фейсбуки кодировали сходные картинки одинаковыми цифрами.

И даже был курьёзный случай: существовал эмодзи 1F92D — колобок с улыбающимися глазами и ртом, закрытым рукой. Ну явно сдерживает смех. Но Эпл и Фейсбук рисовали глаза широко открытыми — неописуемый ужас. Их разунифицировали, эпловская версия получила номер 1FAE2.

И ещё — Юникод никогда не закодирует конкретную картинку — какого-нибудь преведа или догэ. Юникод кодирует идею, а художник может нарисовать эту идею по-разному.

Односимвольные эмодзи

Пример: ехидный колобок состоит из одного символа 1F600.

С ними проще всего: открываешь любую таблицу символов и находишь эмодзик. Недостаток: если эмодзик новый, он, скорее всего, отобразится тем самым ненавистным тофу.

VS16-эмодзи

Пример: красное сердце 2764+FE0F

Такой механизм применяется в основном для старых символов, существовавших до 2010 года, а также принятых в эмодзи с опозданием (напоминаю, принимали их по несколько сотен за раз). Чтобы отобразить символ графикой, за ним ставится невидимая метка «селектор начертания 16» (variation selector 16) FE0F.

Как вы видите, начинаются сложности, и их цель — избавиться от тофу. Старый символ хоть в текстовом виде, да и будет.

Совет: если в таблице символов видите эмодзи, а копипаста, например, в браузер упорно выводит символ текстом — вероятно, не хватает того самого VS16. Или найдите другую таблицу, или скопируйте-вставьте символ FE0F отдельно.

Существует и обратный селектор — FE0E, делающий из эмодзи текст. Вот вам футбольный мяч+FE0E: ⚽︎

И вообще, если эмодзи многосимвольный, его можно копировать по частям. Если все части скопированы правильно и система знает такой эмодзи, он сразу же отобразится.

Цвета кожи

Пример: негритянская рука OK 1F44C+1F3FF

Как видите, цвет кожи — это просто символ-метка. Система, если может, собирает из руки и тёмной кожи тёмную руку. А если не может — будет просто рука и чёрный лоскут.

Флаги государств

Есть специальный алфавит, и флаг — это две буквы из этого алфавита. В Windows 10 во всех «хромых» браузерах будет «GB», а Firefox содержит флаги государств и всё-таки нарисует «юнион джек».

Зато флаги иногда меняются, в этом загвоздка. В общем, сейчас Консорциум больше рекомендует цветные метки вместо флагов, но за политической обстановкой следит.

ZWJ-последовательности

Пример: белый бесполый врач 1F9D1+1F3FB+200D+2695+FE0F

Посмотрим, как эта штука устроена. Первые два символа — это эмодзи «белый человек». Последние два — посох Асклепия. А между ними — невидимый символ «нулевой соединитель» (zero width joiner) 200D. Даже если система не может собрать из них врача, будет как-то понятно.

Другой вариант — картинка деятельности + ZWJ + символ пола.

А также:

  • ворона = 🐦 + ZWJ + ⬛

  • свежачок Юникода 15.1 (выйдет в сентябре): человек, идущий вправо = 🚶‍♂️ + ZWJ + ➡️ + VS16

Ну и рекордсмен Юникода — межрасовый поцелуй. Целых десять символов: четыре эмодзи, соединённые тремя ZWJ.

Из-за такого устройства у ZWJ-последовательностей есть и второй путь кодирования: производитель придумывает последовательность, вписывающуюся в правила, и если она станет популярной, Консорциум её внесёт в Юникод.

Инклюзивность

Примерно с 2018 начали заботиться об инклюзивности. У каждого эмодзи есть бесполая, мужская и женская версия, исключения три:

  • женщина в хиджабе (мусульманском платке) 🧕;

  • женщина, кормящая грудью 🤱;

  • танцор 💃 — изначально это была женщина в латиноамериканском платье. Потом добавили мужчину в костюме диско 🕺. А вот что будет танцевать бесполая версия — так и не определились (пока склоняются к брейку или контемпу).

Даже беременный мужчина с 2021 есть, тем более парочка беременных людей, которые по документам мужчины, действительно нашлась. А ещё в Англии можно «наесться до беременности», а у нас «беременный» — это с пивным пузом. Также есть несколько эмодзи, связанных с инвалидностью: человек в коляске, с белой тростью…

Забавная история. В шрифте Webdings в позиции 6D находится стилизованный восклицательный знак — мужчина в очках и деловом костюме левитирует. В 2014 году закодировали Wingdings и Webdings, превратив часть картинок в эмодзи — этот левитирующий (1F574), по стандарту, бесполый и может иметь расу.

Когда на картинке двое или более людей, в Юникоде существуют четыре способа раздать им расы:

  • Собрать через ZWJ из меньших эмодзи. Таких сборок всего четыре: поцелуй (см. выше), рукопожатие, любовь, пара людей. Согласитесь, важные!

  • Обойти межрасовую тему. Кормление грудью или из бутылки — младенец в шапочке. Массаж лица — массажиста нередко рисуют в перчатках.

  • Забить на расы из-за комбинаторного взрыва: все семьи без расы, иначе было бы много-много тысяч картинок.

  • Забить на расы из-за маловажности: борцы и танцоры Плейбоя есть всех трёх полов, но без расы.

Колобки не инклюзивны, они всегда лысые и жёлтые.

У меня есть идея эмодзи. Как предложить?

Консорциум Юникода всегда (а вот и нет, каждый год в апреле-мае) готов выслушать ваши предложения. До настоящих эмодзиков доходят не более четверти заявок. За год выходит 20…30 штук.

Чего они точно НЕ примут:

  • связанные с текущими событиями: тонущий корабль, коронавирус (Эпл перерисовал 🦠 1F9A0 «микроорганизм»)

  • конкретные картинки и объекты: догэ, Сталин, Христос, Эйфелева башня. Принять могут только военного: собака 🐕 есть, а телебашни хватит токийской 🗼

  • надписи, флаги

  • слишком специфичные: F-35, пицца с колбасой. Принять могут только военный самолёт, пиццу и колбасу

  • изобразимые текущими картинками: мытьё рук, ведь есть руки 👐 и мыло 🧼

  • вызывающие каскадное добавление новых эмодзи: ленточки, символизирующие различные заболевания

  • если автор не смог объяснить, на что эмодзик нужен: уроборос (змей, кусающий собственный хвост). Аэрозольный баллон долго объясняли, но он уже на рассмотрении, а квадрокоптер шесть раз заворачивали.

Я пишу программу «Юникодия» — энциклопедию символов Юникода. Качать тут.

Показать полностью 13
[моё] Эмодзи Unicode Кодировка Длиннопост
11
3
Mercury13
2 года назад
Серия Что нового в Юникоде

Юникод 15.1: что намечается нового⁠⁠

Юникод 15.1 выходит в сентябре этого года. Поскольку версия намечается малая, то и пост будет небольшой.

Эмодзи

К моменту, когда версия 15.0 подходила к фиксации, начались те самые события, и Консорциум стали просто бомбардировать соответствующими эмодзи: казак, вышиванка, вышитое полотенце, тризуб, колючая проволока, взрыв, булава, хлóпок, тонущий корабль. Как думаете, сколько из них взяли в дело?

(Переведите «хлóпок» на украинский, загуглите — и да завянут уши! С тонущим кораблём — имеется в виду история флагмана Черноморского флота и матерная фраза, ставшая символом этой войны.)

Ни одного.

Но всё-таки немножко эмодзиков появилось, все — ZWJ-последовательности.

Нулевой соединитель (ZWJ = zero width joiner) — невидимый символ с кодом 200D₁₆, призванный соединять символы в лигатуру, если шрифт способен. За пределами эмодзи используется в сингальском (Шри-Ланка).

1. Шесть новых эмодзи

Лайм =🍋+ZWJ+🟩
Съедобный гриб = 🍄+ZWJ+🟫
Разорванная цепь = 🔗+ZWJ+💥
Колобок, кивающий вертикально = 🙂+ZWJ+↕️
Колобок, кивающий горизонтально = 🙂+ZWJ+↔️
Феникс = 🐦️+ZWJ+🔥

2. Новые семьи

Семей существует много разных: из нескольких поколений (бабка+родители+ребёнок+младенец), межрасовые, с питомцами, и непонятно, как всё это собрать, не устроив комбинаторный взрыв. Так что добавили только бесполые семьи, состоящие из «неопределённого взрослого» и «неопределённого ребёнка». Видимо, потому, что имеет право на жизнь вот такая иконка.

🧑+ZWJ+🧑+ZWJ+🧒+ZWJ+🧒
🧑+ZWJ+🧒+ZWJ+🧒
🧑+ZWJ+🧑+ZWJ+🧒
🧑+ZWJ+🧒

3. Стандартизированы эмодзи с направлением движения

Даже при том, что текст идёт слева направо, меняем направление движения — меняется смысл.

В Юникоде 15.0 таких последовательностей не было, только много лет существовал механизм. Теперь будет 108.

Китайские иероглифы

Обещают добавить около 600 новых символов. Однако поскольку штатный иероглифист умер, неизвестно, смогут ли новые иероглифисты подхватить его работу. Зато сделали две новых вещи.

Первая — серьёзно перелопатили базу иероглифов, важно только специалистам.

Вторая — добавлены пять символов структуры иероглифов. Давно, с версии 3.0, вот этот иероглиф с кодом 2DA21₁₆ можно было описать как ⿰書史, Появились, например, знаки «иероглиф отражён», «иероглиф повёрнут», «у иероглифа стёрта черта».

Изменения глифов

Изменены два глифа.

A798 «F с чертой» используется в африканских языках, и вместо реконструированной буквы теперь найденная в документах. AB5A «игрек с короткой правой ногой» — используется для описания диалектов немецкого, нашли в документах некурсивный вариант.

Напоминаю: я пишу программу «Юникодия» — энциклопедию символов Юникода. Качать тут.

Показать полностью 7
[моё] Unicode Эмодзи Длиннопост
20
1189
sm1ly
sm1ly
2 года назад
IT-юмор

I ? Unicode ?)⁠⁠

I ? Unicode ?)
Картинка с текстом Странный юмор IT юмор Unicode Наклейки на авто Повтор
40
CryptoDefend0r
CryptoDefend0r
2 года назад

Биткоин появился намного раньше⁠⁠

Латинская заглавная буква b с чертой (биткоин) Ƀ

Ƀ U+0243

Этот символ используется, как один из альтернативных знаков биткоина.

В десятой версии Юникода введён другой символ биткоина: ₿.

Символ «Латинская заглавная буква b с чертой (биткоин)» был утвержден как часть Юникода версии 5.0 в 2006 г.


Старая скамина оказывается

Символика и символы Unicode Текст
0
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии