TrevAndKo
Почему онлайн-словари синонимов плохи
Так сложилось, что моя дипломная работа была связана со словарями синонимами, а потому мне пришлось произвести небольшой анализ существующих ресурсов. И чтобы результаты не пылились, я расскажу, почему же до сих пор не сделали адекватный ресурс и доколе мы будем страдать.
Изначально существование синонимов обусловлено необходимостью решения двух речевых проблем: уменьшения повторов, которые считаются стилистическим недостатком текста, и подбора наиболее точного слова к конкретной ситуации. Конечно, существует изрядное множество самых разнообразных сборников синонимичных рядов, на, так сказать, любой вкус и цвет. Только... вы задумывались, как их составляли? А я сейчас расскажу примерную схему работы! Берётся, значит, текст, из него собирается какой-нибудь синонимичный ряд. Например, "дерево-дуб-берёза". Пока всё нормально. Теперь берём другой текст, с помощью которого оный синонимичный ряд дополняется, корректируется, и у нас получется, допустим, "дерево-дуб-берёза-доска-балка". Тоже ничего смертельного. Такая процедура повторяется ещё определённое количество раз.
Теперь следите внимательно за мыслью.
Уверена, хотя бы раз где-нибудь когда-нибудь вам приходилось слышать о такой фразе, как "туп как дерево" и аналогичных вариациях с другими представителями фауны. Таким образом, в определённом контексте слово "дерево" будет связано с умественно недалёким человеком, и синонимичный ряд пополнится словом "тупой", "дурак" и т.д. Чуете, куда я клоню? Знаете, я очень долго смеялась, когда один из онлайн-ресурсов в первых четырёх вариантах синонимов к слову "дерево" выдал мне "дурак", "козёл", "идиот" и "дура". Только потом пошло что-то адекватное.
Громче я только орала, когда обрабатывала честно утянутый с просторов интернета словарь синонимов и увидела синонимы к слову "двойка". Даю вам пару мгновений подумать, что же могло пойти не так.
Двойка-цифра-баранка-дуэт-плохо-два-лодка-пара-неудовлетворительно-банан-лебедь-цифра-козёл-гусь-двувеселка-неуд.
Большая часть синонимов логична, однако что тут делает лодка, банан, лебедь, козёл и гусь – это вопросы, на которые я предлагаю порассуждать в комментариях.
А какое веселье творится во всех поголовно словарях синонимов, если вогнать туда местоимения! Кстати, корректнее называть местоимения контекстными синонимами, значение которых меняется от, вау, контекста. Но существующие словари только смеются над этим и выдают такую дичь.
Предлагаю всем дружно подумать в комментариях, почему рядом с "дьяволом" не стоит "бог", ведь именно "бога" чаще всего в текстах упоминают как "он" с особенной, религиозной интонацией. А о том, что здесь делает спирт, думаю, ясно всем.
Чтобы был понятен масштаб трагедии, ресурсов для подбора контекстных синонимов, нет. Точнее, существует сайт, который я делала для диплома, но он сыр, недоделан и требует многих корректировок, поэтому нет, я его не покажу. Зато я вам продемонстрирую, почему не стоит пользоваться ресурсами, которые повышают уникальность текста, автоматически заменяя слова на синонимы (некоторые утверждают, что они ещё и контекстные, ага).
Для примера мы рассмотрим как художественный, так и научный тексты. Все ссылки на ресурсы я приведу в первом комментарии к посту.
Владимир Дубровский воспитывался в Кадетском корпусе и выпущен был корнетом в гвардию; отец не щадил ничего для приличного его содержания, и молодой человек получал из дому более, нежели должен был ожидать.Textorobot – синонимайзер
Пушкин А.С. "Дубровский"
Владимир Дубровский воспитывался в Кадетском корпусе и выпущен был корнетом в гвардию; отец не щадил ничего для солидного его содержания, и юноша получал из дому более, ежели был должен ждать.
Rustxt – синонимайзер
Владеть миром Дубровский прививался в Кадетском корпусе и выпущен был корнетом в гвардию; родитель далеко не миловал прилично для приличного его содержания, и молодой человек зарабатывал из дому более, ежели вынужден был ожидать.
Онлайн – синонимайзер
Владимир Дубровский воспитывался в Кадетском корпусе и выпущен был корнетом в гвардию; основатель не щадил ничего для интеллигентного его содержания, и молоденький человек получал из жилищу больше, ежели обязан был ждать.
Синонимайзер текстов
Владимир Дубровский воспитывался в Кадетском корпусе и отпущен был корнетом в гвардию; основоположник не щадил ничего для приличного его содержания, и парень получал из дому более, чем те был должен ожидать.
Потоки – это отдельные выполняемые последовательности команд в рамках одного процесса. Создание потока или переключение контекста выполняется приблизительно в 10 раз быстрее, чем аналогичные действия с процессами.Textorobot – синонимайзер
«Тюнинг веб-сервер» П. Киллелиа
Потоки – это некоторые выполняемые последовательности команд в рамках 1-го процесса. Создание потока либо переключение контекста производится примерно в 10 раз резвее, чем подобные деяния с действиями.
Rustxt – синонимайзер
Потоки – это отдельные производимые очередности установок в рамках одного процесса. Создание потока или переключение контекста проделывается предположительно в 10 два – и обчелся быстрее, чем аналогичные воздействия с процессами.
Онлайн – синонимайзер Синонимайзер текстов
Струи – это отдельные производимые очередности команд в рамках 1-го процесса. Создание струи или же переключение контекста производится ориентировочно в 10 один скорее, чем подобные воздействия с процессами.
Синонимайзер текстов
Ручьи – это отдельные выполняемые очередности порядка команд в рамках одного хода развития дела. Создание течения или переключение контекста производится ориентировочно в 10 раз быстрее, чем аналогичные воздействия с процессами.
Как видите, очень плохая идея -- загонять в подобные программы научные тексты.
Какой же можно сделать вывод на основе всего этого? А такой, что компьютерной лингвистике (а именно данная сфера занимается разработками в направлении взаимодействия естественного языка с компьютерными системами) уделяется крайне мало внимания. Что, в общем-то, неудивительно, тема довольно специфичная, не всем интересная и не всем ясная в том, а зачем, собственно, копать в этом направлении. А потом смеёмся и записываем видосики с Алисой, которая выдаёт упоротые ответы, негодуем, взаимодействуя с чат-ботами, которые не в состоянии понять, что хочет от него пользователь, и всё гадаем, когда же изобретут настоящий искусственный интеллект. Только ведь без возможности адекватно работать с полиморфизмом слов не получится нормально реализовать диалог между машиной и человеком. Так что "мем смешной, а ситуация страшная".
Всем спасибо за внимание :D
Предназначено
Обложка для рассказа "Предназначено" (https://prodaman.ru/isinka/books/Prednaznacheno), написанного на конкурс сонгфиков.
Такие странные слова
Кто такие ваганты? Какого человека можно назвать бонтонным? И почему не стоит цукать?
Странные слова, не правда ли? Вот и я так думала, работая над своим дипломом (нет, я не филолог и не лингвист, я полу-программист). За разбором синонимичных рядов мне повстречалось столько незнакомых понятий, что невозможно было не поддаться любопытству и не собрать подборку, которая теперь просится стать достоянием общественности. Возможно, какие-то слова Вам известны, но, надеюсь, Вы найдёте для себя что-нибудь новое.
Приятного чтения :)
***
Автохтон – коренной житель (животное, растение) какой-либо местности.
Авуары – вклады денежных средств, хранящиеся в иностранных банках.
Акефалия – тип социальной организации с отсутствием ярко выраженной институционализованной, централизированной власти; (религ.) неподчинённость христианской общины какой-либо церковной власти.
Акы́н – поэт-импровизатор и певец у тюркоязычных народов Средней Азии, в частности, у казахов, киргизов, ногайцев и каракалпаков. Есть похожие народные певцы – жыршы (ырчы) (сказители) и оленши (песенники), но, в отличие от акынов, они исполнители, а не создатели произведений. Стихи акыны читают нараспев под звуки (домбры, комуза) – струнного щипкового инструмента с овальным корпусом, грифом и тремя (двумя) струнами.
Амикошонство – бесцеремонное, излишне фамильярное обращение.
Апория – логическое затруднение, непреодолимое противоречие при разрешении проблемы.
Аскари – арабское слово, в переводе означающее «солдат».
***
Балласы (ballas, дробеобразный борт, алмазы Кунца) – разновидность мелкозернистых алмазов с более твердой, чем ядро, оболочкой.
Благоглу́пость – (ирон.) глупость, совершаемая с серьёзным видом.
Бонтонный – (разг., устар.) облажающий хорошими манерами, соответствующий правилам бонтона.
Будировать – дуться, сердиться на кого-либо; выражать недовольство кем-либо; быть настроенным против кого-либо, быть в конфликте с кем-либо; возбуждать, будоражить; поднимать вопросы и проч.
***
Вага́нты (от лат. vagantes – странствующие) – творческие люди в Средние века (XI–XIV века) в Западной Европе, способные к сочинительству и к исполнению песен или, реже, прозаических произведений.
Ве́ргельд – денежная компенсация за убийство свободного человека, установленная в германских варварских правдах. Вергельд выплачивался родом убийцы семье убитого, постепенно вытеснив кровную месть.
***
Дипсомания – это психический алкоголизм, поиск в спиртном решения психологических проблем. Отличается от обычной тяги к алкоголю на уровне мотиваций.
Дэ́ли, дэгэл (монг. дээл) – традиционная одежда монгольских и тюркских народов Центральной Азии; обычно делается из хлопка, шёлка или парчи.
***
Инженю́ (от фр. ingénue – «наивная») – актёрское амплуа, наивная девушка. Реже «инженю» называют исполнителей ролей неопытных, наивных молодых мужчин.
Конак – по-турецки собственно большой дом, в котором странники могут находить ночлег; но обыкновенно конаком называется дом лица высокопоставленного. В провинциальных городах конак – дом, в котором живет паша; отсюда и у югославянских народов, например у сербов, конак – дворец князя.
***
Меандры – система петлеобразных изгибов (излучин) естественного происхождения, составляющих ложе реки.
***
Синеклиза – (от др.-греч. συν – «вместе» и ενκλισις – «наклонение») сводовое опускание поверхности кристаллического фундамента поверхностных плит, имеющие в горизонтальном плане неправильно округлые или овальные очертания (до нескольких сотен, иногда более тысячи километров в поперечнике) и глубину обычно до 3-5 км (реже больше). Обычно вызывается таянием подземных ледников.
Ситничёк (ситуха, в форме ситивень) – морось, словно мокрая пыль.
Скаред – (разг.) жадный, скупой человек.
***
Переярок – курица после первого года носки яиц.
***
Реципрокный – взаимный – (лат. reciprocus) рефлекторный механизм, обеспечивающий иннервацию взаимосвязанных групп скелетных мышц, участвующих в осуществлении сложных координированных движений (ходьба, бег и др.), при которых сокращение одной группы мышц сопровождается расслаблением других мышц; реципрокные скрещивания – два типа скрещиваний одних и тех же исходных групп животных или растений, которые отличаются лишь по половой принадлежности родительских пар.
***
Хапуга – тот, кто много или часто хапает, присваивает что либо незаконным путем, берет взятки.
Хохштаплер – (нем. hochstapler, мошенник) обманщик, ловкач, проходимец, аферист, авантюрист.
***
Цукать – (спорт.) резко, рывком дергать поводья лошади; грубо издеваться над кем-нибудь.
***
Шелтер – приют, кров; пристанище, прибежище; убежище; заградительные насаждения.
Шхе́ры – (швед. skär, др.-сканд. sker – скала в море) архипелаг, состоящий из мелких скалистых островов, разделённых узкими проливами и покрывающих значительную часть прибрежной морской полосы, окаймляя берега фьордового типа. Каждый из таких островков в отдельности называется «шхе́ра».
***
Элонгация – астрономический термин, означающий угловое расстояние между Солнцем и планетой при наблюдении с Земли.







