Теряются некоторые символы тайского языка

Теряются некоторые символы тайского языка.


Это не проблема отображения браузерами (win7/FF62, Android7/Chrome69), т.к. в исходном коде страницы пропавших символов тоже нет. При редактировании проблем нет. На других сайтах проблем нет.


Вероятно, пропавшие символы были по-какой-то причине отфильтрованы сервером.

Юникод блок тайского: https://en.wikipedia.org/wiki/Thai_(Unicode_block)


Теряются символы с кодами в интервалах  [U+0E34,  U+0E3A], [U+0E47, U+0E4E],

Теряются некоторые символы тайского языка Thai, Unicode

Особенность этих символов в том, что они не пишутся сами по себе, а только над или под другим символом. Но при этом, почему-то, один из подобных симовлов U+0E31 не теряется.


Лаосский алфавит, близкий родственник тайского, на первый взгляд отображается верно, в том числе и надстрочные и подстрочные символы.



Тест тайского блока:

====================================
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+0E0x ก ข ฃ ค ฅ ฆ ง จ ฉ ช ซ ฌ ญ ฎ ฏ
U+0E1x ฐ ฑ ฒ ณ ด ต ถ ท ธ น บ ป ผ ฝ พ ฟ
U+0E2x ภ ม ย ร ฤ ล ฦ ว ศ ษ ส ห ฬ อ ฮ ฯ
U+0E3x ะ ั า ำ ฿
U+0E4x เ แ โ ใ ไ ๅ ๆ ๏
U+0E5x ๐ ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๚ ๛
====================================


Должно быть так (скриншот во время редактирования, между  проблемными символами вставлены пробелы для лучшей различимости):

Теряются некоторые символы тайского языка Thai, Unicode

Багрепорты

7.1K поста1.1K подписчиков

Добавить пост

Правила сообщества

Опишите подробно:

- Возникшую проблему

- Порядок действий для повторения проблемы

- Версию Пикабу: ПК, мобильная браузерная, приложение Android, приложение iOS

- Ваше устройство, ОС, браузер


Приложите скриншоты или видео с проблемой

И мы постараемся помочь :)

Вы смотрите срез комментариев. Показать все
Автор поста оценил этот комментарий

Здравствуйте.

Символы которые не добавляются нами не поддерживаются.

раскрыть ветку (20)
1
DELETED
Автор поста оценил этот комментарий

Что значит не поддерживаются? Почему именно эти символы?

раскрыть ветку (19)
Автор поста оценил этот комментарий

Не только эти, есть еще и другие.

Передал разработчикам данную информацию, они проверят.

раскрыть ветку (18)
1
DELETED
Автор поста оценил этот комментарий

Спасибо. Если у разработчиков будут вопросы,  касающиеся языка, можем попробовать совместно порешать.

раскрыть ветку (17)
1
Автор поста оценил этот комментарий

Добрый вечер)

Через эти символы были флуды, мы их фильтруем в итоге )

Уточните, а зачем вам понадобились на Пикабу эти символы?

раскрыть ветку (16)
2
DELETED
Автор поста оценил этот комментарий

Дбр вчр.

Мн эт смвл нжн, птм чт бз нх фгн выхдт.


Среди аудитории Pikabu есть немало людей интересующихся Таиландом, тайским языком, тайской культурой, наконец просто лингвистикой. При обсуждении подобных тем важно иметь возможность писать тайские слова на тайском языке.

Фильтрация делает это абсолютно невозможным.

Вот свежий пример:

#comment_124274165

Там все безнадежно испорчено.



Про флуд не знал, но нагуглил.


Пара вариантов решения:


1. "overflow-y: hidden;" не поможет?

https://jsfiddle.net/Lae45koj


2. Для символов из множества U+0E34 - U+0E3A, U+0E47 - U+0E4E делать проверку, что их таких любых из этого множества не больше 3 подряд. (Навскидку там и 2 достаточно, но могу впопыхах что-то упустить). Будем пробовать?

раскрыть ветку (15)
Автор поста оценил этот комментарий

С overflow hidden точно нет, так как само решение костыльное, да и придется его встраивать во много версий сайта.
Второй вариант получше, возможно его применим, спасибо)

раскрыть ветку (14)
DELETED
Автор поста оценил этот комментарий

.


https://jsfiddle.net/5peqbmkc/


Вот так с проверкой только лишь "опасных" цветных символов ([\u0E31,\u0E34-\u0E3A,\u0E47-\u0E4E]).


Оставил ограничение длины в 3 символа -- длинные хвосты отрезаются, а запас для забытой валидной комбинации остается. Если 3 все-таки слишком много, то хотя бы 2 сделайте, пожалуйста.

раскрыть ветку (7)
Автор поста оценил этот комментарий
Добрый день, можно Ваш контакт для связи? Это не касается поста.
раскрыть ветку (6)
DELETED
Автор поста оценил этот комментарий

А чего касается?

раскрыть ветку (5)
Автор поста оценил этот комментарий
Python
раскрыть ветку (4)
DELETED
Автор поста оценил этот комментарий

Вот такое вроде нормально работает:

https://jsfiddle.net/pq6oszw1/

Иллюстрация к комментарию
раскрыть ветку (5)
Автор поста оценил этот комментарий

Спасибо за помощь) Чуть позже применю вашу регулярку ;)

DELETED
Автор поста оценил этот комментарий

Пардон, идея с упрощением диапазона до оранжевой рамки не очень удачная. Вспомнил про валидную комбинацию больше 3 таких символов.


Удалите, пожалуйста, комментарий выше, или хотя бы картинку, чтобы никого в заблуждение не вводить.


Лучше честно включать в диапазон только голубые, зеленые и розовые символы.

раскрыть ветку (3)
1
Автор поста оценил этот комментарий

Привет) Эх, если что, я этот коммент не видел, так как он не под моим комментом. Я только что изменил на нашей стороне фильтрацию, теперь она менее жесткая

раскрыть ветку (2)
DELETED
Автор поста оценил этот комментарий

На первый взгляд отлично работает! Спасибо огромное.

DELETED
Автор поста оценил этот комментарий

Спасибо!


Test1: "เอ๊าะเอ"

Test2: "เอียเอ"

Test3: "เอี้ยเอ"

Test4: "เอาะเอ"

Test5: "อรุ่น"

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку