Когда вы переводите важное письмо или личное сообщение с помощью онлайн-переводчика, всё кажется простым и удобным: вы вводите текст, нажимаете кнопку, и через мгновение получаете перевод.
Но задумывались ли вы когда-нибудь, что происходит с вашими данными в этот момент? Где они хранятся, кто может получить к ним доступ и насколько безопасно использование таких сервисов?
В этой статье мы рассмотрим, как именно обрабатываются ваши данные при использовании машинного перевода и какие риски могут подстерегать их на этом пути.
Машинный перевод (МП) — это автоматический перевод текста с использованием компьютерных программ. Больше о нем можно прочитать в статье Машинный перевод: что это.
Все современные системы машинного перевода относятся к нейронному типу. Это означает, что они обучаются на больших объемах данных благодаря наличию нейронных сетей, этот процесс схож с тем, как человеческий мозг воспринимает информацию.
Сначала поступившие данные обрабатываются таким образом, чтобы компьютеру было просто понять информацию. Текст разбивается на части, лишние символы, такие как знаки пунктуации, убираются, заглавные буквы становятся строчными. Далее слова преобразуются в числовые представления, понятные компьютерным алгоритмам. В процессе перевода анализируется контекст, подбираются наиболее подходящие варианты слов. Затем сложные числовые представления снова преобразуются в слова, но уже на другом языке, восстанавливается регистр и знаки пунктуации.
Для того, чтобы переведенный текст соответствовал по качеству и смыслу своему оригиналу, модели нейронного машинного перевода “кормят” огромным количеством текстов, которые для них являются своего рода учебниками. Чем более всеобъемлющий и качественный материал использован для обучения, тем лучше будет качество перевода. Так мы плавно подошли к проблеме: где взять столько качественной и разносторонней информации?
Любая информация, находящаяся в открытом доступе, представленная на нескольких языках, может служить “кормом” для языковых моделей. Это и официальные международные документы, и новости, и художественная литература, и научные материалы и … личные данные интернет-пользователей.
Типы данных, передаваемых в процессе перевода
При использовании онлайн-переводчика мы либо вставляем в него сам текст, либо загружаем документ, содержащий текст, либо вводим текст посредством голосового ввода. Порой делаем это не задумываясь, куда потом девается наше сообщение от друга иностранца, информация о правках от иностранного клиента или информация от консультанта в заграничном банке.
А задуматься все же стоит. Мало кто обращает внимание на всплывающие окна о сборе той или иной информации, а в политиках конфиденциальности онлайн сервисов для перевода частенько есть строки наподобие этих:
Загружая, добавляя, сохраняя, отправляя и получая содержание в наших службах, вы предоставляете компании и ее партнерам действующую во всем мире лицензию, которая позволяет нам использовать это содержание, размещать его, хранить, воспроизводить, изменять, создавать на его основе производные работы (например, переводы, адаптации и прочие способы оптимизации материалов), обмениваться им, публиковать его, открыто воспроизводить, отображать, а также распространять
Так что конкретно может быть использовано с нашего же согласия? Давайте рассмотрим.
Входные данные — это информация, которую пользователь вводит в онлайн-переводчик. Эти могут быть:
Текстовые документы: Обычные текстовые файлы, документы Word, PDF и другие форматы, содержащие текст для перевода.
Личные сообщения: Тексты из мессенджеров, электронной почты и социальных сетей.
Веб-страницы: HTML-код и содержимое веб-страниц для перевода контента сайтов.
Аудио и видео: Речевые данные для перевода устных высказываний (в случае использования систем автоматического распознавания речи и перевода).
В процессе перевода могут передаваться и метаданные, которые сопровождают входные данные:
Языковые метки: Информация о языке исходного текста и целевого языка.
Структурные данные: Информация о формате документа, например, структура заголовков, абзацев, списков и других элементов.
Контекстуальная информация: Данные о контексте использования текста, такие как тематика, стиль и целевая аудитория.
В процессе перевода входные данные преобразуются и обрабатываются, создавая промежуточные и конечные данные:
Токены: Разделенные части текста (слова или фразы), которые используются для обучения и перевода в нейронной сети.
Векторы: Числовые представления токенов, которые используются нейронной сетью для понимания и генерации перевода.
Скрытые представления: Промежуточные векторные представления, которые захватывают смысл и контекст исходного текста.
Хранение данных
Большинство онлайн-переводчиков хранят переведенные данные на своих серверах. Это может быть как краткосрочное хранение для обеспечения бесперебойной работы сервиса, так и долгосрочное хранение для улучшения качества перевода и разработки новых функций.
Часть переведенной информации может временно сохраняться в кэше вашего браузера для ускорения последующих переводов тех же текстов. Некоторые приложения для мобильных устройств могут сохранять историю переводов локально на вашем устройстве. Многие популярные онлайн-переводчики, такие как Google Переводчик, сохраняют историю переводов в облаке и синхронизируют ее между устройствами пользователя.
Что происходит с этой информацией?
Компании-разработчики онлайн-переводчиков используют данные о переводах для обучения своих алгоритмов и улучшения качества перевода.
Некоторые сервисы могут использовать историю ваших переводов для персонализации результатов, например, предлагая наиболее подходящие варианты перевода в зависимости от ваших предыдущих запросов.
В некоторых случаях, анонимизированные данные о переводах могут использоваться для маркетинговых целей, например, для создания целевой рекламы.
Риски и угрозы безопасности, связанные с хранением данных
Согласно исследованию, проведенному IBM и институтом Ponemon, в 2023 году средняя стоимость одного случая утечки данных достигла рекордных 4,45 миллиона долларов. Игнорировать этот риск становится слишком дорого.
В 2017 году в Управлении по информационным технологиям штата Мэн личная информация получателей пособий по уходу за детьми оказалась на публичном сайте. Сделано это было неумышленно: сотрудник загрузил файл на бесплатный сайт, не осознавая, что эти данные станут общедоступными.
В том же году в нефтяной компании Statoil произошла утечка данных из-за использования сотрудниками бесплатного онлайн сервиса для перевода внутренней документации. Информация, которая не должна была стать общедоступной, стала индексироваться поисковой системой Google.
Эти примеры показывают, что утечка информации не всегда происходит из-за хакеров. Чаще всего это результат ошибок самих пользователей. Сотрудники компаний не всегда понимают, к чему могут привести их действия. Бесплатные онлайн-переводчики создают иллюзию безопасности, ведь они доступны без оплаты и регистрации.
Однако такие сервисы часто не обеспечивают достаточную защиту данных, что может привести к утечке личной информации, нарушению приватности и финансовым потерям. Пользователям нужно осознавать риски, связанные с бесплатными сервисами, и выбирать проверенные и безопасные платформы для перевода.
Рекомендации пользователям
Как отмечает один из лидеров рынка безопасного машинного перевода:
Компаниям следует полностью исключить использование небезопасных бесплатных сервисов при работе с конфиденциальной информацией. Вместо этого они должны выбирать между локальными серверами для машинного перевода внутри корпоративной сети или использованием облачных сервисов от проверенных поставщиков с надлежащими мерами безопасности
Локальный машинный перевод Lingvanex представляет собой программное обеспечение, установленное на устройства компании. При его использовании вся конфиденциальная информация обрабатывается внутри организации и никуда не выходит. Локальный переводчик может функционировать без подключения к интернету, а это исключает утечку информации. Руководство организации самостоятельно определяет правила доступа к переводческим системам и настраивает параметры безопасности.
Заключение
“Семь раз отмерь, один раз отрежь” — старая русская пословица, которая абсолютно точно описывает ситуацию с выбором переводчика. При работе со своими или чужими данными, нужно трезво оценивать риски того или иного действия. Да, онлайн-переводчики самый быстрый способ перевести документ, не потратив при этом ни копейки, однако сэкономленная копейка на переводе может потянуть за собой внушительную сумму на резгребание проблем.
Учитывая темпы развития переводческих услуг, можно легко найти решение, которое будет устраивать и по цене, и по качеству, и по безопасности. Советуем лишний раз перестраховаться.