Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.
Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.
Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.
❯ Неограниченный рост
Хотя миллионы, а возможно, даже миллиарды и триллионы личных фотографий и видео, хранящихся и публикуемых в различных социальных сетях, без сомнения, являются важным фактором, компании также борются с ростом объёма нестандартных данных, который существенно превзошёл ожидания.
Хотя миллионы, а возможно, даже миллиарды и триллионы личных фотографий и видео, хранящихся и публикуемых в различных социальных сетях, без сомнения, являются важным фактором, компании также борются с ростом объёма нестандартных данных, который существенно превзошёл ожидания.
Проблема для бизнеса и ИТ-индустрии заключается в том, что рост количества данных не является постепенным. Каждая технологическая инновация, например, в области изображений с высоким разрешением, может в одночасье удвоить потребность в хранении данных.
Просто подумайте о последствиях для хранения данных, например, когда компания по производству медицинского оборудования обновляет программное обеспечение компьютерного томографа, улучшая качество и, следовательно, размер изображений с высоким разрешением в два, три или даже четыре раза за один момент.
Или быстрая эволюция Интернета вещей, которая позволяет предприятиям генерировать всё более высокий уровень объёма данных. Организации изучают возможность использования ИИ для оптимизации бизнес-процессов, что создаёт дополнительный источник данных, которые хоть и будут поддерживать рост бизнеса, но их также необходимо будет хранить, а такое хранение стоит дополнительных ресурсов.
Особый вопрос заключается в том, где хранить архивы — информацию, к которой редко обращаются снова после создания. Компании заинтересованы сохранять, а не удалять подобные сведения. Частично это связано с тем, что общественность не ожидает исчезновения данных. Но более важным фактором является развитие ИИ и аналитики. Чем больше у вас данных и чем выше их качество, тем мощнее могут быть ваши алгоритмы.
В течение 15 лет на рубеже XXI века скорость и ёмкость компьютерной памяти росли с ошеломляющей скоростью. В период с 1990 по 2005 год плотность битов (объём информации, которую можно хранить на квадратный дюйм дискового пространства) систем магнитных приводов росла в среднем на 60% каждый год. Однако к 2010-м годам рост выровнялся. Растущий спрос на ёмкость хранения, а также потребности в миниатюризации и энергоэффективности портативных устройств, таких как смартфоны и ноутбуки, сделали твердотельную «флэш-память» доминирующим средством хранения цифровых данных.
Флэш-память быстрая и компактная, но и дорогая. На протяжении десятилетий учёные-компьютерщики разрабатывают и исследуют другме виды памяти.
❯ Гелиевые диски
Жёсткий диск уже является одной из старейших разработок в компьютерной истории. Согласно технологическому плану, предложенному Консорциумом передовых технологий хранения данных, к 2025 году ёмкость жёстких дисков вырастёт до 100 ТБ благодаря новым технологиям записи, таким как память на магнитных сердечниках, перпендикулярная магнитная запись, улучшенное кэширование и гелиевые накопители.
Гелиевые накопители внешне выглядят идентично обычным жёстким дискам. Но только внешне. Нас же интересует то, что внутри. В гелиевых накопителях для хранения информации используются те же физические пластины, что и в жёстких дисках, но герметичный корпус заполнен гелием, а не воздухом. Поскольку гелий в шесть раз менее плотен, чем воздух, то для вращения дисков ему требуется гораздо меньше энергии. Следовательно, он выделяет меньше тепла, поэтому в одном форм-факторе можно разместить больше дисков с большей долговечностью.
Хотя эта технология остаётся дорогостоящей и не представляет какого-либо радикального изменения парадигмы хранения данных, ожидается, что эти высокопроизводительные накопители постепенно станут более доступными для рядовых потребителей. В результате ёмкость и производительность жёстких дисков будут увеличиваться, одновременно становясь более экономически выгодными.
❯ Хранение данных в ДНК
Идея хранения цифровой информации на синтетических нитях ДНК существует с 1960-х годов, и вдохновлена тем фактом, что ДНК сама по себе является системой хранения. Она состоит из химических строительных блоков, называемых нуклеотидами, каждый из которых состоит из сахара, фосфатной группы и одного из четырех азотистых оснований. Каждое из этих азотистых оснований обозначается буквами: А (аденин), Т (тимин), G (гуанин) и С (цитозин). Именно порядок и последовательность этих азотистых оснований определяют биологическую информацию, закодированную в цепи ДНК.
Цифровая информация существует в виде двоичного кода, а хранилище ДНК работает путём перевода её нулей и единиц в последовательности этих четырех букв. Например, 00 равняется A, а 10 равняется G. Затем можно получить синтетическую ДНК, содержащую эту последовательность. Эту ДНК можно сохранить и на более позднем этапе декодировать в текст, или, скажем, в видео.
Привлекательность такого метода заключается в том, что ДНК может хранить огромные массивы информации при высокой плотности хранения, около одного эксабайта (одного миллиарда гигабайт) на кубический дюйм. ДНК также долговечна — она может прослужить десятки тысяч лет — и не потребляет огромного количества энергии.
Например, для хранения десятков зеттабайт потребуются миллиарды ленточных накопителей — сегодня это самые плотные коммерческие носители информации. В то время как, если бы такой же объём хранился в синтетической ДНК, он занял бы объём одного небольшого холодильника.
Количество исследований, связанных с этой темой, в последние годы сильно возросло. Различные компании работают над её реализацией: некоторые — над синтезом или чтением ДНК, другие — над переводом двоичного кода в алфавит ДНК. В 2020 году Microsoft стала соучредителем Альянса хранения данных ДНК, объединившего 41 организацию с двойной целью: реализовать потенциал хранения ДНК и рекомендовать создание спецификаций и стандартов для обеспечения совместимости. И уже есть доказательства концепции. Учёные уже закодировали книги в ДНК, а недавно стартап выпустил устройство размером с кредитную карту, которое может хранить килобайт в форме ДНК. В 2012 году исследователи из Гарварда успешно закодировали цифровую информацию в ДНК, в том числе книгу на 53 400 слов в HTML, одиннадцать изображений JPEG и программу JavaScript.
Для бизнеса потенциальные выгоды значительны. Объём мирового рынка хранения данных оценивался в 217 миллиарда долларов в 2022 году и, по прогнозам, к 2030 году достигнет 778 миллиарда долларов. Согласно одному из отчётов, развивающийся рынок хранения ДНК достигнет 3,4 миллиарда долларов к 2030 году.
Конечно, хранилище ДНК не заменит традиционные центры обработки данных. Но в конечном итоге это может позволить хранить архивные данные в более экологичных и компактных дата-центрах, которые производят минимальные отходы и выбросы углекислого газа. В этих центрах файлы будут кодироваться и синтезироваться, а затем храниться в капсулах.
Если это звучит футуристично, то так оно и есть. Синтез ДНК остаётся дорогим, и поэтому его использование ограничивается лишь небольшим количеством чрезвычайно ценных данных.
Технология хранения данных в ДНК сталкивается с большим временем чтения/записи и общими проблемами стоимости. Долго удерживаемый рекорд скорости составил 200 МБ в сутки. Однако в конце 2021 года исследователи увеличили этот показатель до 20 ГБ в день. Это всё равно значительно медленнее, чем скорость записи на HDD: 200–300 МБ/с.
Другая проблема — стоимость. Исследования показывают, что кодирование 1 мегабайта данных может стоить около 3500 долларов США.
Рабочий прототип памяти на ДНК от Microsoft
Хотя процесс записи медленный и дорогой, нити ДНК невероятно плотны в качестве носителя информации и удивительно устойчивы. По прогнозам экспертов, хранящаяся в подходящих прохладных и тёмных условиях ДНК может сохранять информацию в безопасности и быть готовой к безошибочному извлечению на срок в несколько тысяч лет. Большинству современных жёстких дисков уже через несколько десятилетий будет сложно функционировать.
Возможно, мы никогда не увидим хранения ДНК в домашних жилищах из-за узкоспециализированного оборудования, необходимого для обработки информации обратно в формат, читаемый традиционными компьютерами. Однако он имеет многообещающий потенциал для использования в крупных научных и промышленных целях.
❯ Развивающаяся область спинтроники и беговая память
Спинтроника — это термин, который исследователи используют для обозначения теоретических вычислений и систем хранения данных, которые используют квантовое свойство, известное как «спин», магнитную ориентацию электрона или другой субатомной частицы. Все такие частицы имеют один из двух спинов: вверх или вниз. Эти два значения могут стать основой для двоичной системы, которую компьютеры используют для хранения цифровой информации — системы субатомных единиц и нулей, которая будет в миллионы раз более эффективной, чем память и процессоры, которые мы используем сегодня. Эта возможность воодушевляет учёных-компьютерщиков, которые в целом согласны с тем, что возможности традиционных систем имеют встроенные ограничения.
Физик из IBM Дональд Эйглер обнаружил, что он может использовать сканирующий туннельный микроскоп (СТМ) не только для наблюдения за атомами, но и для их перемещения. Условия должны были быть абсолютно подходящими: атом должен был находиться в вакуумной камере, охлажденной почти до абсолютного нуля, а кончик микроскопа должен был располагаться очень близко к рассматриваемому атому, но не касаться его. В течение 22 часов 11 ноября 1989 года Эйглер и его команда тщательно расположили 35 атомов ксенона так, чтобы получилось слово «I B M».
Атомное написание Эйглера имело хорошую рекламу, но оно также продемонстрировало ранний прогресс в направлении квантовой электроники.
В течение следующих нескольких лет Эйглер и его команда исследовали новые применения СТМ, в конечном итоге создав электронный переключатель, в котором в качестве активного элемента использовался одиночный атом. В 2004 году команда Эйглера использовала СТМ, чтобы изменить ориентацию спина атомной частицы; они заменили единицу на ноль, обеспечив техническую основу для записи битов на квантовом уровне.
Ранее в том же году другая группа учёных IBM объявила, что они успешно использовали магнитно-резонансную силовую микроскопию для обнаружения вращения одного атома, внедренного в твёрдый образец — техническую основу для считывания квантовых битов. Вместе эти два открытия приблизили информатику на шаг ближе к многолетней мечте о беговой памяти.
Предлагаемая конструкция беговой памяти
Традиционные вычислительные системы отслеживают, где данные хранятся на конкретном устройстве памяти, а затем получают доступ к этому месту — в случае магнитных устройств хранения данных — путем манипулирования носителя информации, чтобы расположить желаемое место под считывающим устройством. Это делает скорость перемещения диска или ленты ограничивающим фактором скорости доступа к информации. Флэш-память решает эту проблему, создавая более быстрый твёрдотельный накопитель, но он намного дороже, чем магнитный накопитель.
Беговая память обещает лучшее из обоих технологий: носитель данных, который будет таким же быстрым, как флэш-память, но таким же дешёвым, как магнитный, с теоретической ёмкостью хранения, превосходящей оба варианта. Беговая память работает, перемещая не диск, а сами данные. Биты хранятся в субатомных «доменах» между областями магнитного заряда на нанопроволоке шириной в 1/100 000 ширины человеческого волоса. Затем эти домены перемещаются по проводам, как бегуны на беговых дорожках, со скоростью, в 1 миллион раз превышающей скорость магнитных дисков.
Хитрость заключается в том, чтобы перемещать их очень точно, учитывая, что рассматриваемые домены могут быть размером с один атом. Надёжное манипулирование доменами было непомерно сложным и дорогим до 2010 года, когда учёные IBM первыми в мире измерили ускорение и замедление доменов при различных напряжениях. Наряду с методами письма и чтения, разработанными ранее в IBM, этот прорыв в области перемещения доменов предоставил третий компонент, теоретически необходимый для создания работающего устройства беговой памяти.
Инженерам ещё предстоит разработать прототип для потребительского использования, но исследователи IBM считают, что такие устройства в конечном итоге заменят твёрдотельные накопители так же, как твёрдотельные накопители заменили магнитные жёсткие диски.
В 2021 году группа исследователей Нью-Йоркского университета объявила об ещё одном шаге к будущему: они обнаружили, что материалы, называемые ферримагнетиками, которые создают меньшие магнитные поля, чем обычные материалы, такие как железо и никель, лучше подходят для создания стабильного магнитного поля. Это открытие представляет собой ещё один прорыв в продолжающемся проекте по выводу беговой памяти за пределы лабораторий на потребительские рынки.
❯ Нужно ли нам хранить все?
Фактически, сейчас хранение одного терабайта данных в течение года обходится более чем в 3000 долларов. Компании с чрезвычайно большими объёмами данных платят ещё больше. По оценкам, хранение петабайта данных в течение пяти лет может стоить более 1 миллиона долларов.
Дедупликация данных — это простая концепция; она просто удаляет избыточные данные. Но это может привести к существенной экономии средств. В одном примере глобальный банк ежегодно тратил 2 миллиарда долларов на эксплуатацию 600 хранилищ данных. Они реорганизовали, вывели из эксплуатации некоторые данные и сэкономили 400 миллионов долларов на ежегодных затратах.
Итак, жизнеспособно ли сохранение подхода «хранить всё», когда, по оценкам, на дата-центры сегодня приходится до 3% мирового потребления электроэнергии, а к 2030 году, по прогнозам, он достигнет 4%? И где хранить все эти данные в будущем?
Существуют различные традиционные способы хранения данных. Ленточные накопители потребляют минимальное количество энергии, но доступ к данным происходит медленно, а их сохранение обходится дорого. Твёрдотельные и жёсткие диски являются привлекательной альтернативой из-за низкой задержки доступа, что позволяет быстро извлекать данные из хранилища. Но поскольку оба этих носителя информации имеют ограниченный срок службы, они требуют периодического переноса данных на более новые носители. Этот повторяющийся процесс миграции данных вносит значительный вклад в загрязнение окружающей среды, поскольку как жёсткие диски, так и ленты обычно уничтожаются после использования. Твёрдотельные и жёсткие диски требуют постоянного питания для поддержания функций хранения и извлечения данных. Значительная часть сегодняшних архивных данных хранится в огромных ЦОД, битком набитых ими. Они не только занимают много физического пространства, но и производят огромное количество выбросов парниковых газов.
В конечном итоге рост данных значительно увеличился и будет продолжать расти. Это и приводит к поиску более эффективного носителя данных, особенно для облачного архивного хранения.
Написано специально для Timeweb Cloud и читателей Пикабу. Больше интересных статей и новостей в нашем блоге на Хабре и телеграм-канале.
Хочешь стать автором (или уже состоявшийся автор) и есть, чем интересным поделиться в рамках наших блогов — пиши сюда.
Облачные сервисы Timeweb Cloud — это реферальная ссылка, которая может помочь поддержать авторские проекты.