Bekannt aus

IBM scannt Terabytes im Minutentakt

Die rasante Zunahme von Daten, Transaktionen und digitalen Geräten beansprucht die bestehende IT-Infrastruktur, und das bei steigenden Speicher- und Wartungskosten. Systeme müssen her, die solche Daten managen und zudem optimieren. IBM positioniert sich mit einem aktuellen Rekord ganz weit vorne.

Das Unternehmen scannte per General Parallel File System (GPFS) zehn Milliarden Daten in nur 43 Minuten.Bereits vergangene Woche ging die Meldung durch einige US-Blogs. Nun bestätigte IBM den Rekordversuch, der gleichzeitig den alten aus dem Jahre 2007 einstellt. Damals schafften die Wissenschaftler "nur" eine Milliarde Dateien in drei Stunden. Der aktuell durchgeführte Testlauf war in mehreren Abschnitten unterteilt, wobei wohl die wichtigsten die Daten selbst betreffen. Denn in der ersten Phase wurden satte 600 Gigabyte Daten geschrieben, sie wurden gleichzeitig auf mehr als 5.000 temporären Dateien verteilt. Dafür benötigte das System gerade einmal 20 Minuten.

Terabyte im Minutentakt

In der zweiten Phase ging es dann ebenfalls zügig voran: Das System las die temporären Dateien aus und sortierte diese gleichzeitig in nachvollziehbaren Datenstrukturen. Insgesamt wurden in 23 Minuten satte 5,5 Terabyte ausgelesen. Diese Spitzenleistung wurde mit GPFS und einem Cluster von 10-Achtkern-Server-Systemen (System x3650 M2 Servers) erreicht. Die zehn benutzten Knoten verfügten jeweils über eine CPU mit 2,8 Gigahertz (Dual Quad Core) die wiederum im Versuch auf 32 Gigabyte DRAM zurückgriffen. An dem System waren insgesamt vier SSDs mit insgesamt 6,8 Terabyte Speichervolumen angeschlossen.

Das Besondere am Test dürfte zweifelsohne die Programmierung des GPFS-Algorithmus sein. Denn dieser ermöglicht die komplette Ausnutzung aller Prozessorkerne in allen Maschinen und zudem in allen Aufgabenphasen – Daten lesen, sortieren und Anwenden der so genannten Datenmanagement-Vorgaberegeln. IBM spricht von keinerlei Leistungsschwankungen. Was das für Unternehmen und Rechenzentren bedeutet, wird beim Betrachten des weltweit größten Klimadaten-Archivs plastisch. Das Deutsche Klimarechenzentrum in Hamburg verfügt über 60 Petabyte an Daten. Das entspricht etwa 13 Millionen DVDs. Alleine 56 Roboterarme suchen die Informationen aus den 65.000 Magnetbandkassetten mit den Archivdaten. Der Klimarechner Blizzard, ebenfalls IBM, könnte dementsprechend von den Manager-Qualitäten des General Parallel File Systems nur profitieren.