Trendy w przechowywaniu danych w 2021 roku, według Seagate

Michał Nowak, Head of Sales, Eastern Europe, Seagate w wypowiedzi na temat trendów w zakresie przechowywania danych. 

Sposoby przechowywania i transferu danych stale ewoluują. W ciągu ostatniej dekady przeszliśmy długą drogę. Postęp i sukcesy w zakresie poprawy pojemności rozwiązań pamięci masowej, zwiększenia przepustowości, zastosowania sztucznej inteligencji oraz poprawy bezpieczeństwa danych, który dokonał się w tym czasie nie da się z niczym porównać. Aby lepiej zrozumieć ten skomplikowany, cyfrowy świat danych i to w jaki sposób liderzy branży IT wdrażają rozwiązania pamięci masowej w celu osiągnięcia celów biznesowych, przygotowaliśmy pięć najważniejszych trendów, które zdominują najbliższe dwanaście miesięcy.

  1. Bezpieczeństwo hierarchicznych baz danych

Bezpieczeństwo danych, które znajdują się zarówno w ruchu, jak i w spoczynku, to krytyczne obszary ochrony danych użytkownika w tak zwanym, rozproszonym modelu bazy. Trend ekosystemów hiperskalowych, znajduje się cały czas na fali wznoszącej, co pozwala na opracowywanie i skuteczne wdrażanie nowych rozwiązań także dla mniejszych przedsiębiorstw, które mogą nie mieć dostępu do wymaganej infrastruktury. Coraz więcej natywnych aplikacji chmurowych działa w punktach dostępowych lub centrach kolokacyjnych na całym świecie. W związku z rosnącą popularnością takiego modelu współużytkowania zasobów, staje się konieczna ochrona danych na każdym etapie procesu.

Szyfrowanie danych staje się coraz bardziej powszechne, a w niektórych branżach jest wręcz obowiązkowe. Liczne zagrożenia wewnętrzne i zewnętrzne stanowią ryzyko utraty danych zarówno dla tych znajdujących się w ruchu jak i w miejscu. Dlatego Seagate zaleca jak najszybciej zastosowanie dysków szyfrowanych, aby w przyszłości uniknąć problemów.

  1. Szersze wykorzystanie obiektowej pamięci masowej przez przedsiębiorstwa

Gwałtownie rosnąca ilość użytecznych danych sprawia, że magazyny obiektowe stają się nowym standardem pamięci masowej. Oferują one liczne korzyści w porównaniu z tradycyjnymi magazynami plikowymi, m.in. normatywne metadane, skalowalność oraz brak hierarchicznej struktury danych. Pamięć masowa dzieli się na blokową, plikową i obiektową. Pamięć blokowa ma kluczowe znaczenie w wielu aplikacjach, które mają wysokie wymagania, jeżeli chodzi o wydajność. Pamięć plikowa od lat służy tradycyjnym aplikacjom i zapewnia im niezawodną infrastrukturę. Pamięć obiektowa skupia się na nowych aplikacjach działających w połączeniu z pamięcią blokową w celu zapewnienia skalowalności i wydajności. Ponadto wiele tradycyjnych aplikacji plikowych przechodzi na infrastrukturę obiektową, aby wykorzystać skalowalność, efektywność i dostępność danych, jaką zapewnia obiektowa pamięć masowa.

Magazyny obiektowe stają się faktycznym standardem pamięci masowej, szybko zastępując magazyny plików ze względu na większą efektywność i skalowalność. Dane nie podlegają hierarchii katalogów i są przechowywane w ahierarchicznej przestrzeni adresowej, są przechowywane jako odrębne obiekty a aplikacje rozpoznają odrębne obiekty danych na podstawie ich unikalnego adresu.

  1. Szersze wykorzystanie modułowości

Choć pomysł rozdzielenia systemów na niezależne jednostki, które można łączyć z innymi niezależnymi jednostkami, nie jest nowy, obecnie modułowość jest wprowadzana na szerszą skalę w oparciu o oprogramowanie open source. U podstaw tego trendu leży Kubernetes, system open source do automatyzacji wdrażania, skalowania i zarządzania aplikacjami kontenerowymi. Open source, to przyszłość tworzenia aplikacji, ponieważ umożliwia znacznie większej społeczności pracę nad problemami, które stanowią wyzwanie dla wielu branż.

Dzisiejsze centra danych zmierzają w stronę modułowości, ponieważ ułatwia ona wdrażanie i przesuwanie zasobów bez wstępnych konfiguracji i konieczności statycznego ustawiania proporcji między mocą obliczeniową, pamięcią operacyjną i pamięcią masową. Kontenery i Kubernetes są kluczowymi mechanizmami modułowości, a wszystkie centra danych, które jeszcze nie korzystają z tych technologii, wkrótce zaczną je wprowadzać.

  1. Obsługa wielowarstwowej pamięci masowej („gorące” dane w pamięci flash, reszta na HDD)

Wielowarstwowa pamięć masowa to sposób na grupowanie danych w różne kategorie i przypisywanie ich do różnych typów nośników w celu optymalizacji wykorzystania zasobów. Różne kategorie danych można wyróżnić na podstawie częstości użycia lub poziomu wydajności. Za przykład mogą posłużyć procesory graficzne firmy NVIDIA, które dzielą pamięć na różne poziomy (rejestry, pamięć współdzielona i globalna). Każdy poziom ma inne właściwości. Rejestry cechują się niskimi opóźnieniami i małą pojemnością. Pamięć globalna cechuje się wysokimi opóźnieniami i dużą pojemnością. NVIDIA zapewnia interfejs, który pozwala wykorzystać wielowarstwową pamięć i programować rozwiązania zoptymalizowane pod kątem tej architektury. Podobnie, napędy SSD i HDD można traktować jako należące do różnych warstw.

Dlaczego jest to istotne? System pamięciowy złożony z samych wysokowydajnych urządzeń byłby prawdopodobnie droższy, niż to konieczne. A system pamięciowy złożony z samych urządzeń o wysokiej pojemności prawdopodobnie nie zapewniłby wymaganej wydajności. Stąd bierze się bieżący trend dzielenia pamięci masowej na warstwy: jest to sposób na osiągnięcie najbardziej efektywnej równowagi między kosztami a wydajnością. W związku z pojawieniem się nowych technologii (takich jak pamięć SCM) konieczne jest stosowanie architektur, które potrafią w pełni wykorzystać mocne strony wszystkich klas pamięci masowej.

W świecie nieograniczonych budżetów centra danych składałyby się wyłącznie z bardzo kosztownych nośników pamięciowych, takich jak Intel 3DXPoint. Niestety, realia ekonomiczne wymuszają stosowanie hierarchicznej architektury wielowarstwowej, w której „gorące” dane są przechowywane na kosztownych i wysokowydajnych nośnikach, a rzadziej używane dane znajdują się na tańszych nośnikach o wysokiej pojemności. Na szczęście oprogramowanie centrów danych coraz lepiej radzi sobie z identyfikowaniem „gorących” i „zimnych” danych oraz ich odpowiednim migrowaniem. Centra danych, które jeszcze nie wykorzystują zróżnicowanych nośników do tych celów, albo tracą na wydajności, albo płacą więcej niż trzeba za pamięć masową.

  1. Formatywna sztuczna inteligencja

Rośnie nie tylko tempo tworzenia danych, ale również ilość danych, które są użyteczne. Wskrzesza się nawet dane archiwalne, ponieważ postępy w dziedzinie sztucznej inteligencji i uczenia maszynowego pozwalają użytkownikom wydobyć dodatkowe informacje z niegdyś zarchiwizowanych danych. Musimy być przygotowani na przechowywanie i przetwarzanie jeszcze większej ilości danych. Formatywna sztuczna inteligencja to sposób na wyciąganie dodatkowych wniosków z dostępnych danych. Gartner definiuje formatywną sztuczną inteligencję jako „typ sztucznej inteligencji, która zmienia się dynamicznie w reakcji na daną sytuację”. Według IDC, formatywna sztuczna inteligencja to „ogólny termin, którym określa się technologie sztucznej inteligencji i pokrewne rozwiązania, które mogą dynamicznie się zmieniać w reakcji na wariancje sytuacyjne”. Formatywna sztuczna inteligencja ma związek z trendem wielowarstwowości, ponieważ wymaga elastycznej architektury, która może inteligentnie reagować na zmiany. Przypuśćmy, że monitorujemy model AI i otrzymujemy sygnał, że zaczął dryfować. Możemy wówczas użyć innego modelu, aby wyszukać odpowiednie dane szkoleniowe w warstwie dyskowej i automatycznie przenieść je do warstwy flash, aby szkolenie przebiegło szybciej. Ponadto warstwa dyskowa najprawdopodobniej byłaby magazynem obiektowym, co wpisuje się również w trend obiektowej pamięci masowej. Korzyści to szybkość (ponieważ dane są automatycznie przenoszone do szybkiej warstwy) oraz koszty (ponieważ dane można przechowywać na niedrogich dyskach w łatwo dostępnym formacie do czasu, aż będą potrzebne).

Ostatnie innowacje w dziedzinie uczenia maszynowego wreszcie uwolniły od dawna obiecywany potencjał sztucznej inteligencji. Teraz techniki uczenia maszynowego potrzebują jeszcze większych zbiorów danych do wyciągania jeszcze dokładniejszych wniosków. Ponieważ trudno przewidzieć przyszłe postępy w uczeniu maszynowym, firmy powinny dziś zachowywać tyle swoich danych, ile tylko mogą, aby zagwarantować, że przyszłe analizy będą odbywać się przy użyciu najlepszych możliwych danych szkoleniowych.

Subscribe
Powiadom o
guest
0 komentarzy
Inline Feedbacks
View all comments