Deduplikācija

3PAR disku masīvi izmanto vairākus datu apjoma samazināšanas algoritmus, HPE tos apvieno vienā kopējā datu samazināšanas stratēģijā un sauc to par Adaptive Data Reduction. Tajā ietilpst:

  • Zero Detect – tehnoloģija, kas identificē un neļauj ierakstīt “nulles datus”;
  • Deduplikācija – process, kas identificē dublētus datu blokus un izslēdz to ierakstīšanu atkārtoti;
  • Kompresija – izmantojot dažādus algoritmus optimizē datu glabāšanu, tādējādi iegūstot papildus diska vietu;
  • Data Packing – datu kārtošanas process, kas sakārto vairākus deduplicētus un/vai kompresētus blokus vienā kopējā 16KB apgabalā (page).

Šoreiz apskatīsim deduplikācijas ieguvumus un to, kā varam aprēķināt mūsu datu piemērotību tai. Lai arī deduplikācija darbojas tikai ar SSD diskiem, kas ir dārgāki par rotējošajiem diskiem (spinning media), ar tās palīdzību ir iespēja samazināt GB/$ attiecību, padarot SSD diskus vēl pieejamākus un konkurētspējīgākus par parastajiem NL (Nearline 7.2k) vai FC ( Fast Class 10/15k) diskiem. HPE sola, ka izmantojot deduplikāciju un kompresiju 3PAR disku masīvos, datus iespējams saspiest līdz pat 2 : 1 attiecībai, kas būtu 100% izmantojamā diska vietas apjoma ieguvumu (piemēram, 1 TB vietā mēs varētu glabāt 2 TB datus). Deduplikācija, līdzīgi kā citi iepriekš minētie datu apjoma samazināšanas paņēmieni, nedarbojas jebkuriem datiem, un tai ir arī draudzīgi un mazāk draudzīgi dati, kā piemēram, pie draudzīgajiem deduplikācijai varam minēt:

  • VSI / VDI – virtuālu serveru infrastruktūras / virtuālu desktopu infrastruktūras;
  • Dokumentu glabātuves (šāres), WEB serveri, SharePoint.

Turpretī, ļoti niecīgu vai minimālu ieguvumu no deduplikācijas varam sagaidīt šādiem datiem:

  • Datubāzes;
  • Saspiesti video / audio faili un attēli;
  • Hostu vai aplikāciju šifrēti dati.

Lai iepazītos ar deduplikācijas priekšrocībām veicām testu Adaptive Demo 3PAR 8400, kuru, piedāvājam arī mūsu klientiem. Tests, protams, ir viena lieta, kas ļauj pārliecināties par to, vai deduplikācija ir iespējama, tomēr, ne vienmēr to var veikt konkrētajiem datiem (diezin vai vēlēsieties visus datus kopēt testa iekārtā, lai pārliecinātos, vai tos var deduplicēt). Lai noskaidrotu, vai esošos datus iespējams deduplicēt, var izmantot arī 3PAR Dedupe Crawler. Tā ir pāris MB  liela aplikācija, kas notestēs tai padotos datus un ar to pašu algoritmu, kuru 3PAR disku masīvs veic deduplikāciju, aprēķinās aptuveno deduplikācijas attiecību un iegūto vietu. Datiem nav jāatrodas uz 3PAR disku masīva, tie var būt jebkādi dati, jebkādā disku masīvā, ārējā cietajā diskā vai jebkurā citā datu nesējā.

Lai pārliecinātos par to, kā strādā 3PAR Dedupe Crawler , cik precīzs tas ir, veicām testu savā infrastruktūrā, notestējot nelielu koplietojamo dokumentu šāri un salīdzinājām to ar rezultātiem no 3PAR 8400 disku masīva ar SSD diskiem un ieslēgtu deduplikāciju.

Testa veikšanai sagatavojām Windows Server 2016 serveri ar 90 GB diska vietu un iekopējām tajā datus:

Kopējais šāres izmērs pēc datu iekopēšanas ir 85.6 GB, kas, nav daudz, bet, arī šāds apjoms būs pietiekams. Jāņem vērā, ka pieaugot datu apjomam pieaugs arī dati, kurus būs iespējams deduplicēt.

Izanalizējot šo šāri ar 3PAR Dedupe Crawler ieguvām šādu rezultātu:

Sākotnējais datu apjoms, kas tika pārbaudīts – 85.2 GB

Datu apjoms pēc deduplikācijas – 57.5 GB

Deduplikācijas attiecība – 1.48 : 1

Tātad, spriežot pēc rezultātiem, pateicoties deduplikācija, mēs, ņemot vērā konkrētos datus, varētu iegūt aptuveni 27 GB papildus diska vietu.

Tā kā HPE vēlreiz atgādina, ka aprēķiniem ir tikai informatīva nozīme, sākotnējo šāri pārvietojām uz 3PAR disku masīvā izveidotas TPVV (Thin Provisisoned Virtual Volume). Pirms deduplikācijas pielietošanas ieguvām šādu rezultātu:

Apskatījām vietu arī CPG (Common Provisioning Group) līmenī, kuras ietvaros 3PAR disku masīvi veic deduplikācijas aprēķinu.

Arī 3PAR disku masīvs piedāvā veikt savus deduplikācijas aprēķinus pirms pārvērst VV (virtual volume) par deduplicētu. Šiem rezultātiem būtu jāsakrīt ar iepriekš veiktajiem aprēķiniem, kurus ieguvām izmantojot Dedupe Crawler. 3PAR disku masīva deduplikācijas aprēķins:

Ieguvām aptuveno aprēķinu – datu apjoms pēc deduplikācijas aizņems 57.54 GB ar deduplikācijas attiecību 1.38 : 1, kas salīdzinot ar Dedupe Crawler aprēķiniem (1.48 : 1) – atšķiras. Matemātiski gan mums pašiem sanāk aprēķināt un iegūt rezultātu 1.48 : 1 (Aprēķins 87236 / 58925), bet pieņemsim 3PAR SSMC uzrādīto attiecību kā rezultātu šajā mērījumā.

Reālā situācija

Konvertējam esošo 3PAR TPVV par TPVV ar ieslēgtu deduplikāciju (jaunajā 3PAR OS 3.3.1 to sauc par TDVV) VV līmenī varam noskaidrot, cik daudz vietas aizņem mūsu dati:

CLI izraksts.

Tikmēr CPG līmenī varam apskatīt deduplikācijas attiecību, SSMC Web konsole apaļo skaitļus ar vienu ciparu aiz komata, esam ieguvuši attiecību 1.5 : 1.

Komandrinda neizmanto apaļošanu un iegūstam precīzāku rādītāju – 1.48 : 1, kas ir tāds pats kā Dedupe Crawler prognozētais:

Secinājumi

                Mūsdienās nav iespējams iedomāties disku masīvu bez milzu bagāžas ar dažādām papildus funkcijām, tāpat, sagaidām, ka šīs funkcijas pildīs savus solījumus. Šoreiz skatījām deduplikāciju un to, vai solītā attiecība, veicot datu analīzi datiem, kas atrodas uz jebkāda datu nesēja, sakrīt ar reālo situāciju, kad dati atrodas jau pašā disku masīvā. Rezumējot, ieguvām šādus deduplikācijas rezultātus:

* Matemātiski aprēķināts rezultāts balstoties uz 3PAR CLI uzrādīto deduplikācijas attiecību 1.48 : 1. Lai atspoguļotu izmantojamās vietas ieguvumu tikai pateicoties deduplikācijai.
** Reālais datu apjoms izmantojot deduplikāciju un pārējos 3PAR disku masīva datu samazināšanas algoritmus (Zero detect / Data Packing)

Kā redzams, gan Dedupe Crawler, gan 3PAR aprēķinus veic atbilstoši reālajai situācijai. Reālajā situācijā gan pēc matemātiskā aprēķina iegūtā vieta ir nedaudz mazākā (57.83 salīdzinājumā ar aprēķināto 57.50 un 57.54), bet pēc pārējiem datu samazināšanas algoritmiem, kas ir iespējoti pēc noklusējuma iegūstam ļoti priecējošus 31.06 GB aizņemtās diska vietas.

Kā jau iepriekš noskaidrojām,  datu apjoma ieguvums, izmantojot 3PAR disku masīvu, ir atkarīgs no konkrētās situācijas un datiem, kas atrodas uz disku masīva. Deduplikācijai, tāpat kā kompresijai un citiem algoritmiem ir sev draudzīgie, kā arī ne tik draudzīgi dati. Lai veiktu aprēķinu, deduplikācijas gadījumā, noteikti varam uzticēties 3PAR deduplikācijas aprēķina rīkam (ja ir pieejams 3PAR’s un vēlamies pārbaudīt vai VV ir vērts deduplicēt pirms to tiešām darām). Ja 3PAR disku masīvs nav pieejams, bet ir interese vai esošos datus iespējams deduplicēt, varam tos analizēt ar 3PAR Dedupe Crawler.

Kādā no nākošajiem rakstiem apskatīsim arī citus Adaptive Data Reduction algoritmus, kas palīdz, vai tomēr pretēji – neattaisno uz sevi liktās cerības, lai pārliecinātos par to efektivitāti un piemērotību kādai konkrētai situācijai.

Ja esat apsvēruši domu palutināt savus datus un iegādāties tiem jaunu disku masīvu, piemēram – 3PAR, piedāvājam iespēju veikt esošo datu analīzi, kā arī, lai saprastu, vai 3PAR apmierinās jūsu vajadzības un vēlmes un būs piemērots jūsu darba slodzēm, piedāvājam demo iekārtu – 3PAR 8400 AFA ar 10 Gb iSCSI un 16 Gb FC savietojamību.