Von Toten Und Eine Sonderveröffentlichung Der Heise Zeitschriften .

Transcription

sponsored by:Eine Sonderveröffentlichung der Heise Zeitschriften Verlag GmbH & Co. KGStorageextraStorageArchivierung im Big-Data-ZeitalterMehrstufigeSpeicherlösungen zurArchivierungArchivierung im Big-Data-ZeitalterVon toten und untoten DatenSeite hivierung war und ist neben dem Backup nochheute das Stiefkind der IT. Dem Backup geht es mitDeduplizierung und zahlreichen Tiering-Möglichkeiteninzwischen etwas besser. Archivierung könnte ebenfallsdavon profitieren, zumal neue Methoden der Indexierungund der Datensuche eine schnellere Reaktivierungversprechen. Big Data, Analytics und Cloud-Servicessind dabei, die Archivierungsszene zu verändern.Archivierte Daten müssen heute keine toten Datenmehr sein.Seite VIIIVeranstaltungen27.ˇSeptember, Mannheim28.ˇNovember, Köln11.ˇDezember, HamburgRechenzentren und �–ˇ10. Oktober, MünchenCommunication Worldwww.communication-world.com16.ˇ–ˇ19. Oktober, Santa Clara, CAStorage Networking World Fall 2012www.snwusa.com17.ˇ–ˇ18. Oktober, NürnbergOpen Source Monitoring Conferencewww.netways.de/osmc23.ˇ–ˇ25. Oktober, StuttgartIT & Businesswww.itandbusiness.de30.ˇ–ˇ31. Oktober, Frankfurt am MainStorage Networking World Europe 2012Powering the Cloud 2012Datacenter Technologies 2012www.poweringthecloud.comiX extra hlagen:Nachsc .shtmlmuzegarotgeSrae/ix/extra/stowww.heise.dVon toten unduntoten DatenZunächst scheint es sich beiBackup und Archivierungum zwei verwandte Begriffe undTechniken zu handeln. Zumal esin vielen Firmen immer nochgang und gäbe ist, beides miteinander zu verwechseln. Oderdas eine – Backup – zu fördernund das andere – Archivierung –zu vernachlässigen oder gar zuvergessen. Man kann es auch sosagen: Beide Vorgänge wollenetwas aufbewahren. Im erstenFall, um schnell auf die Dublettezugreifen zu können, wenn dasnoch im Gebrauch befindlicheOriginal plötzlich beschädigtoder weg ist. Im zweiten Fall,um das aussortierte Exemplarirgendwann wieder in Gebrauchzu nehmen.Das eine – das Backup –macht man möglichst zeitnahund immer wieder, mal ganz,mal nur die Unterschiede oderNeuerungen herausfilternd, dasandere – das Archivieren – nurdann, wenn die Daten aus demproduktiven Prozess herausgenommen werden. Das eine inder Nähe der Datenproduktion,das andere an einem fast beliebigen, fernen Ort. Das eine Malrechnet man fest mit der Notwendigkeit eines Wiederherstellungsprozesses, obwohl man esöffentlich nie zugeben würde,wenn es denn passiert – und espassiert immer wieder, überall.Das andere Mal hat man dieDaten eigentlich mit ihrem Wegschreiben schon vergessen –mit fatalen Folgen für den Reaktivierungsprozess, der eineSache der Theorie bleibt undselten richtig geplant oder malausprobiert wird.Bei Forrester Research siehtman es so: „Trotz der Tatsache,dass weder Backup noch Archivierung neue Konzepte sind,herrscht noch immer einige Verwirrung im Umgang mit beiden.Wie die Unternehmen Backupund Archivierung einsetzen, hatsich in den letzten Jahren kaumgeändert. Was sich aber entwickelt hat, sind die Technologien,die für beide zur Verfügung stehen.“ [1]Einige Beispiele laut Forrester: Das Reduzieren der Datenmenge durch Deduplizierunghat ein neues Niveau erreicht,Tapes speichern größere Volumina, Cloud-basierte Archivie-I

Storagerungs- und Backup-Angeboteverbreiten sich zügig und neueFormen von Datenklassifizierung und eDiscovery erleichterndie schnelle Suche nach Informationen, immer dann wenn siegebraucht, reaktiviert und ausgewertet werden müssen (sieheAbbildungen 1 und 2). Letzteresgilt zunehmend auch für archivierte, also bereits ausgemusterte Daten.Theorie vs. RealitätFür Backup oder Data Protection existiert heute eine Bandbreite von Techniken, die vonContinuous Data Protection(CDP) über Replikation undSnapshots bis hin zu traditionellem Backup reicht. Unternehmen verwenden in der Regeleine Mischung daraus, um füreinzelne Applikationen, File-Server oder PCs Wiederherstellungsziele zu verwirklichen. Diegrößte Herausforderung bestehtdabei laut Forrester darin, einekorrekte Konfiguration derBackup-Parameter und derenUmsetzung zu garantieren, ohnedass die laufende Produktiongefährdet wird oder man bestimmte Anwendungen herunterfahren muss. Ein Teil derTechniken eignet sich darüberhinaus dazu, Duplikate zuerstellen, Software zu überwachen, zu testen und weiterzuentwickeln oder ganzeInfrastrukturumgebungen aufSicherheit und Qualität abzuklopfen.Backup-Anbieter geben sichgerne als Storage-Agnostiker:Als Speichermedium erlaubensie im Prinzip die komplette Palette von der High-End-Disk biszum Tape, egal von welchemHersteller die Basisgeräte auchkommen. An Bundles aus Backup-Software und ausgewähltemStorage mangelt es dennochnicht.Beim Archivieren werdentypischerweise die Daten nichtverdoppelt, also kopiert, sondernaus den produktiven Systemen,File-Servern oder Applikationenentfernt und in neue Umgebungen verschoben. In Archivsyste-men sollte dabei theoretisch eineKontrolle über Zustand und mögliche Wiederherstellungspunktedieser Datenmassen gewährleistet sein. Praktisch ist dies fastnie der Fall: Ihr Aufenthaltsortgeht mit der Zeit verloren, Medien und Abspielgeräte mottenvor sich hin, die Datenformatesind irgendwann nicht mehrlesbar. Die Realität wird denhehren Archivansprüchen nichtgerecht. Digitale Archive sindnicht in Stein gemeißelt, ihreInhalte sind irgendwann perdu,und Kulturhistoriker warnen bereits vor dem Verlust kollektiverErinnerung.Doch das alles müsste nichtmehr so sein. Archivierte Datenkönnen heute für detaillierteSuchprozesse geordnet, indexiert und mit Metadaten ausgestattet sein – eDiscovery undAnalytics (Big Data) stehen bereit, sie zu durchforsten undauszuwerten. Alles Argumente,die nicht unbedingt für Tape undseine komplizierten Reaktivierungsprozeduren sprechen.HSM & ILMDeduplizierung verhindert das mehrfache Speichern derselbenDaten und verringert so das Archivvolumen (Abb. 1).Beim Vergleich des gesparten Datenvolumens schneidet dieobjektbasierte Deduplizierung etwas besser ab (Abb. 2).IIHierarchical Storage Management (HSM) und InformationLifecycle Management (ILM)sind zwei Techniken, die beideauf das geordnete Verschiebender Daten aus sind. HSM sorgteschon in frühen Mainframe-Zeiten für Transparenz, als manauch die Speicherverwaltung anden Server und sein Betriebssystem delegierte. Man sprachauch von „System ManagedStorage“ (SMS, später auchDFSMS/MVS oder DFHSM). Das„IBM System Storage-Kompendium“ bemerkt dazu: „Verwaltetheißt in diesem Zusammenhang, dass das Betriebssystemautomatisch alle Aktivitäten imZusammenhang mit externemSpeicher nach einem vordefinierten Regelwerk – Policy-basierend – verwaltet. ( ) DieserAnsatz wurde in den Anfängenbereits 1974 durch das MassStorage System IBM 3850 eingeführt, wo bereits eine HSMFunktionalität zur Verfügunggestellt wurde, um Daten, dienicht oft benötigt wurden, aufeinem billigen Massenspeichersystemgesteuert abzuspeichern.“ [2]Für das IBM-Kompendiumsind „Information Lifecycle Management“ (ILM) und „Scaleout File Services“ (SoFS) nurweitere Bezeichnungen für densystemverwalteten SpeicherSMS: „Solche Begriffe findensich in IT-Landschaften, die vornehmlich mit Unix- und/oderIntel-basierenden Servern ausgestattet sind. System ManagedStorage (SMS) wurde durch dieAnsätze im Mainframe- undHost-Umfeld in den 80er-Jahrendes vergangenen Jahrhundertsmassiv geprägt.“ [2] Es kamauch zum HSM-Einsatz in UnixUmgebungen sowie bei DECVAX- und bei Alpha-Systemen.Schon in den Anfangszeitenvon SMS und HSM sprach manvom „rasanten Speicherwachstum“, mit dem man Schritt halten müsse, „ohne die Anzahlder Speicheradministratorenanalog mitwachsen zu lassen“.Das IBM-Kompendium: „SMSverhält sich – fast – völlig elastisch zu dem wachsendenexternen Speichervolumen,skaliert ausgezeichnet und verwaltet ein 400-GByte-Disk-basierendes Speicherumfeld in1990 genauso gut wie heuteeine 4ˇ000ˇ000 GByte großeDisk-Konfiguration.“ [2]HSM wird heute manchmalals „einfache“, rein mechanische Form der Datenverschiebung von schnelleren, teurerenauf jeweils langsamere, billigereSpeichermedien verstanden, bissie letztlich auf der „untersten“Stufe verbleiben. Im Unterschied zu der „hochentwickelten“ Form ILM komme man hierohne Policies oder weitere Vorgaben aus. Wer sich jedoch mitder Geschichte der Speichertechniken befasst, für den verschwindet dieser Unterschied,da es von Anfang an nutzergesteuerte Richtlinien waren, diedas HSM bestimmten.Fünf Levelvon SpeichernBei ILM handelt es sich zumeinen um einen marketinggeprägten Begriff, mit dem Speicherhersteller wie StorageTekExtraiX extra 8/2012

Storageund andere versuchten, dasklassische HSM in ihrem Sinnewiederzubeleben. So schreibtFred Moore in „Storage Spectrum“ zu dem technischen Aspekt: „ILM beruht typischerweiseauf HSM-Techniken und benutzteine Policy-Engine, um Daten aufdie jeweils geeigneten SpeicherSubsysteme zu verteilen.“ [3]Zum anderen versuchte manvor etwa acht Jahren mit ILM,auf die Debatten um Compliance, Gesetzeskonformitätund Datenschutz zu reagierenund geschickt in den Verschiebeprozess der gespeichertenInformationen einzugreifen.Paul Bathe, Principal Technical Consultant Unified Storagebei EMC Deutschland, entwirftein Szenario von fünf Speicherstufen und ordnet ILM oberhalbvon HSM ein, weil es bereitsüber Indexierungsmechanismenverfüge. Er unterscheidet zwischen Levelˇ0 klassischesVerdrängen, Wegschreibenwegen mangelnder Plattenkapazität; Levelˇ1 HSM alstransparente Form der Datenverteilung, in der Regel zwischen primärem und sekundärem Storage Array unter demGesichtspunkt der Kostenoptimierung; Levelˇ2 ILM, beidem die Datenverschiebunglaut Bathe Index-Informationenerzeugt. Dazu würden unteranderem die EMC-Lösungenvon Documentum oder SourceOne dienen, die es in einigenAppliances auch zusammen mitDisks gebe.Levelˇ3 ist im Unterschieddazu mit Fließtext-Suche undmehr als einem Index ausgestattet. In vielen Fällen seien dieentsprechend vor dem Archivierungsprozess organisierten undmit gespeicherten Metadatenversehenen Dokumente wichtiger als die Originale, meintBathe. EMC habe rechtzeitig dieBedeutung dieser Ebenen erkannt und sei neben Documentum noch auf der Ebene zahlreicher ECM-Kooperationen(Enterprise Content Management) inklusive gemeinsamerSchnittstellen unterwegs – besonders auf dem Feld der ERPApplikationen. Insgesamt habeman etwa 350 Ansätze lizenziert, darunter die von SAP,OpenText oder von FileNet/IBM.Levelˇ4 sei durch einen Paradigmenwechsel charakterisiert. Bathe verweist auf dieUmbrüche bei Business Intelligence (BI), an denen sein Unternehmen ganz maßgeblich beteiligt sei – durch die Übernahmenvon Isilon und Hadoop sowie einiger kleinerer Anbieter auf demSektor von Big Data und Analytics. Im Gegensatz zu bisherigenAnsätzen ist es, so Bathe, zumTeil gar nicht mehr notwendig,die Daten zu indexieren, bevorman sie in einem oder mehreren Prüfvorgängen durchleuchtet. Man muss sie vorher auchnicht mehr langwierig in einenBehälter à la klassisches DataWarehouse kippen, bevor dieAnalyse-Tools ihre Arbeit beginnen können.Vorsicht beiBananen-SoftwareUm den eigenen Bedarf an Analytics nachzuvollziehen, benötigen Unternehmen laut EMC die richtigen Experten (Abb. 3).Softwarewerkzeuge speichern selten verwendete Daten imTier 3, häufig genutzte Daten im schnellen Tier 1 (Abb. 4).IVEs geht also bei diesem Paradigmenwechsel um großeDatenmengen und vor allemsolche aus unstrukturiertenQuellen, die bisher per BI eherselten erfasst wurden. Die Performance solcher Zugriffe befindet sich noch im Teststadium.EMC hat dazu mit Unterstützungeiniger Hardwarehersteller aufeinem ehemaligen Enron-Firmengelände in Las Vegas einLab eingerichtet. Der Konzerngibt freimütig zu, dass er sichmit seiner Big-Data- und Greenplum-Division noch in einer Anschub- und Investitionsphasebefindet. Dabei wird momentansehr viel Geld ausgegeben,auch für die Schaffung einesneuen Studiengangs, der zum„Data Scientist“ ausbildet. Unternehmen bräuchten, ist manbei dem Konzern überzeugt,erst einmal solche Fachleute,um den eigenen Bedarf an Ana-lytics zu verstehen und dann indie Praxis umzusetzen (sieheAbbildungˇ3).Anwender und Interessentensollten in jedem Fall bei jedemAngebot von Herstellerseiteüberprüfen, ob und in welchemAusmaß der Schritt von – abstrakten – Strategieversprechungen hin zu – konkreten – Toolsund Installationsszenarienschon getan wurde. Sonst besteht die Gefahr, dass die Bananen(-Software) wieder einmalim eigenen Haus reift.State ofthe Art: TieringAuch Unternehmen, die ihreDaten nicht bewusst nach derWertigkeit für Geschäftszweckebeurteilen und lediglich nachGespür auf bestimmten Stufenliegen lassen – zum Beispiel einJahr lang auf teuren, hochperformanten FC-Platten –, betreiben eine Form von HSM oderILM. Nur eben keine bewusste.Insofern sind HSM und ILMauch eine Sache der Strategie,selbst dann, wenn man explizitgar keine hat.Allerdings sind beide Ansätzeoder Begriffe etwas in der Versenkung verschwunden unddurch „Tiering“ abgelöst worden. Die IT-Industrie macht esihren Anwendern und allen, diesie verstehen wollen, immerwieder etwas schwer, weil sieMeisterin im Einschenken vonaltem Wein in neuen Schläuchen ist. So auch hier.„Tiering“ kann man als dieaktuellere, modernere Varianteder Namensgebung für das Weiterschieben von Daten verstehen. Tiering meint das Gleichewie seine Namensvettern HSMund ILM, berücksichtigt abermehr die Kombination von ITInfrastruktur und Dateninhalten.Je nach Kategorisierung, Policiesund Inhalt der Dateien werdensie auf ein Kontingent von Datenträgern weitergeschobenoder auf eine „höhere“ Ebenezurückgeholt, wenn das Monitoring feststellt, dass die Nachfrage steigt. Die Mitarbeiter anihren PCs oder mobilen Geräteninnerhalb des Firmennetzes merken nicht, wo die Daten liegen,ExtraiX extra 8/2012

Storagees sei denn, dass sie aus ihremArchivschlaf auf ausgelagertenTapes zurückgeholt werdenmüssen. Letzteres kann dauern.Der Begriff „Tiering“ istheute weitgehend mit Automatisierung verbunden. Diese beinhaltet meist die Überwachungdes I/O-Verhaltens und die Feststellung der Nutzungshäufigkeitder Dateien. DataCore, nicht aneine bestimmte Hardware-Infrastruktur gebunden, schreibt ineinem White Paper: „Aufgrunddieser Informationen werden Informationsblöcke an die geeignete Klasse oder Tier-Stufe desSpeichergeräts oder Speichernetzes verschoben.“ SoftwareTools wie SANsymphony teilendabei automatisch „die amhäufigsten verwendeten Blöckedem schnellsten Storage-Tierzu, während die am wenigstenverwendeten Daten-Blöckedem langsamsten Tier zugeschrieben werden“ (siehe Abbildungˇ4) [4].Es gibt laut DataCore-CEOGeorge Teixeira Ausnahmen, vorallem, wenn leistungsfähigerSpeicher einem selten genutzten Volume zugewiesen werde.Dies könne zum Beispiel gegenQuartalsende bei speziellenAnwendungen geschehen. Indiesen Fällen weist man bestimmte Volumes (virtuelleFestplatten) dem bevorzugtenStorage Tier zu. Ist dessenKapazität erschöpft, werde eine„niedrigere“ Ebene gewählt.Wie Teixeira ausführt, besteheeine nicht unwesentliche Grenze bei den üblichen Tiering-Angeboten darin, dass sie nur innerhalb eines Storage Arraysgreifen würden. Von einemGerät zu einem nächsten, nochdazu von einem anderen Hersteller, Daten zu verschieben,sei generell nicht vorgesehen.Datacore & EMCTeixeira sieht die Stärke seinesUnternehmens auch darin, automatisches Tiering ohne Rücksicht auf einzelne Arrays bestimmter Hersteller anbieten zukönnen. Natürlich weiß er auch,dass Anbieter wie HDS oder IBMebenfalls in der Lage sind, herstellerübergreifendevirtuelleExtraiX extra 8/2012Pools mittels eigener Softwareschicht aufzusetzen.Der Vorsprung von DataCoreist also immer nur relativ zur Fähigkeit der Konkurrenz, ebenfallsnicht-proprietär aufzutreten. Sohat EMC dieses Jahr auf seinerHausmesse EMC World in LasVegas eine Version von FAST(Fully Automated Storage Tiering)herausgebracht, die als „Federated Tiered Storage“ die Integra-tion von Arrays der KonkurrentenIBM und HDS vorsieht.Was Bathe von EMC alsLevel 0 bezeichnet, ist vor allemdurch die reichliche Bestückungmit SSDs charakterisiert. Diesefallen zwar – anders als Festplatten – nur geringfügig imPreis, lohnen sich aber innerhalb des Tiering-Modells bei derAbwägung Performance versusVolumen. Weniger traditionelleFestplatten (FC, SAS und SATA)im Rechenzentrum zu haben,kann auch bedeuten: wenigerStellfläche, Wartung, Kühlungund Monitoring.In Las Vegas wurde auch„Project Thunder“ offiziell vorgestellt (die fertige Version von„Project Lightning“ aus demVorjahr und Ergänzung des imFebruar eingeführten VFCache):Der Grundgedanke dahinter be-

Storagesteht darin, das oberste TieringLevel zurück in den Server oderin Server-Nähe zu bringen undso die Performance für bestimmte Daten und Anwendungen noch einmal drastisch zuerhöhen. VFCache sieht vor, PCIbasierte NAND-Flash-Cards indie Server einzubauen, die dieI/O-Performance im Idealfall umden Faktor 4000 erhöhen sollen. Project Thunder nimmt alleVFCache-Cards aus dem Serverheraus und platziert sie in einerAppliance, die ins Netz eingeklinkt wird. Die Box soll PCIeSSDs mit mehreren TByte fassen können. Einige Beobachtersprechen bereits von einemServer Area Network [5].Symantec hat vor etwa zweiJahren „Data Insight for Storage“herausgebracht. Mit der Softwaresollen „verwaiste oder lange Zeitnicht verwendete Daten durcheinen Identifikationsprozessleicht geortet und organisiertwerden“. Diese ließen sich dannin ein Archiv umlagern oder löschen. Das würde laut Hersteller„bereits belegten Speicherplatzintelligent freiräumen“.Indexierung & ContentTeilweise wird ILM bereits dieMöglichkeit zugeschrieben, dengespeicherten Daten durch denEinsatz geeigneter Werkzeugebeim geordneten Verdrängenauf günstigere Medien einenIndex mit auf den Weg zugeben. Enterprise Content Management (ECM) arbeitet mitdiesen Methoden schon länger:Daten werden durchforstet,ANBIETER VON SPEICHER-,BACKUP- UND ARCHIVLÖSUNGENHerstellerAcronisArkeiaBarracuda NovaStorOpen-EOracle/SunOrchestraOverland ynologyTandbergThecusThomas KrennToshiba e Übersicht erhebt keinen Anspruch auf Vollständigkeit.VIeventuell in neue Behälter gekippt und dann verschlagwortet.Software, die solches kann, istteuer und erfordert viel Spezialwissen. Kein Wunder, dass nurwenige, meist große Unternehmen ECM einsetzen und manalle Versuche, sie einem breiteren Kundenkreis nahezubringen,als gescheitert betrachten kann.EMC fährt bereits seit Jahreneine doppelte oder sogar dreifache Strategie: Man versucht,sämtliche Positionen der Datenspeicherung zu besetzen, vonder Speicherhardware über Tiering (FAST) bis zu den CenteraAppliances und Enterprise Content Management (ECM) sowieseit Neuestem „Big Data“ undAnalytics. Um bei ECM präsentzu sein, hatte EMC 2003 denAnbieter „Documentum“ für 1,7Milliarden Dollar übernommenund ihn bis 201 ehung derDaten, um Konsequenzen fürden Marktauftritt abzuleiten.Will man sehr große Datenmengen auswerten, bedarf eseiner dafür geeigneten SpeicherInfrastruktur. Und die Daten sollen direkt am Speicherort verarbeitet werden, ohne sie langeüber Datennetze hin- und herzuschicken. Systeme, die dies leisten sollen, nennt man „Computable Storage“. Ausgelegt sindsie als „Scale-Out Cluster“, dieman einfach über das Hinzufügen weiterer Nodes skaliert. AlleKnoten erbringen Rechenleistung, sodass sie Jobs parallelabarbeiten können – MPP (Massive Parallel Processing) erlebteine Wiedergeburt. BI-Systememodellieren und visualisierendie Ergebnisse und machenANBIETER VON ANALYTICS-,BI- UND ECM-LÖSUNGENHerstellerAutonomy/HPEMC (Documentum, Greenplum)EXASOLIBM (Cognos, a.comDie Übersicht erhebt keinen Anspruch auf Vollständigkeit.iX extra 8/2012VII

StorageAuch BI-Schnittstellen, wie hier in der Greenplum-Architektur,helfen bei der Reanimation toter Daten (Abb. 6).sie somit „konsumierbar“ – wieschon bei klassischer Datenaufbereitung.Viele Anbieter von Big-DataLösungen setzen derzeit auf dieWeiterentwicklung des HadoopVerfahrens von der ApacheSoftware Foundation, um mitihm den Zugriff auf sehr großeDatenmengen zu organisieren.Hardwarebasis ist ein Cluster,der aus mehreren TausendKnoten bestehen kann, plusangeschlossenem SpeicherRepository.Daten-ReanimationDie zwei Kernkomponenten vonHadoop sind bisher MapReduceund HDFS. MapReduce ist einSoftware-Framework, wobeimap die Datensätze aus InputFiles liest und in hoher Geschwindigkeit parallel an dieNodes weiterleitet. Dort werdensie in das unter Apache entwickelte neue Filesystem HDFS(Hadoop Distributed File System)eingegeben. Die einzelnenHDFS-Elemente bestehen ausBlöcken, die bis zu 64 MBytegroß sein können und zur Datensicherung mehrfach innerhalbdes Clusters abgelegt werden.Alle großen Hersteller wollenbei Big Data mitmischen, darunter IBM mit „Watson“ oder HPmit „Autonomy“. Das von EMCübernommene Start-up Greenplum kümmert sich ebenfalls umdie Softwareseite, bei der Hard-ware kommt Isilon mit seinerScale-out-Architektur zum Einsatz. Eine Besonderheit desGreenplum-Ansatzes bestehtdarin, von außen auf bestehendeDatensammlungen zuzugreifen,um sie nach bestimmten Fragestellungen zu durchsuchen.Damit ist der Ansatz auch tauglich für die Arbeit mit archiviertenInformationen, die über einenNetzzugang erreichbar sind undzum Beispiel noch auf SATAPlatten liegen. „Tote“ Daten, dieso gut wie niemand mehr betrachtet, sobald sie einmal ausgemustert wurden, lassen sichsomit reanimieren. Suchkriterienkönnen zu sehr granularen Ergebnissen führen. Die Greenplum-Architektur sieht explizitSchnittstellen zu bestehendenBI-Programmen vor (siehe Abbildungˇ6).Hewlett-Packard hat jüngstauf seiner „Discover 2012“Konferenz in Las Vegas gezeigt,wie man Analytics, Backup undArchivierung miteinander verbinden kann. Die neue Versiondes Backup-Programms HPData Protectorˇ7 versteht durchdie Integration von AutonomyIDOL, der mit 10,3 MilliardenDollar sehr teuren Übernahmeder britischen Analytics-Software, automatisch den KontextIn iX extra 9/2012Networking/Hosting: Domain-RegistrierungDomainnamen sind, Grundstücken vergleichbar, zu einemhandelbaren und begehrtenWirtschaftsgut geworden. IhrFormat und der Prozess ihrerVerwaltung haben sich jedochseit den Anfängen mit TopLevel-Domains wie .com, .orgund .de vor fast drei Jahrzehnten im Prinzip nicht verändert.Die Internet-VerwaltungICANN will nun frischen Windin den Markt bringen: Firmen,Kommunen und andere Interessenten können sich um eigeneEndungen wie .app oder .berlinbewerben und sich selbst alsRegistries betätigen. Ob es eineerfolgreiche Besiedelung derneuen „Ländereien“ gebenwird, steht längst nicht fest, unddas liegt nicht nur am pannenreichen Start. iX extra verschaffteinen Überblick über Voraussetzungen und Möglichkeiten einerDomainregistrierung – auch inder „alten Welt“.Erscheinungstermin:23. August 2012DIE WEITEREN IX EXTRAS:AusgabeThema10/12 SecurityWeb Application Security20.09.201211/12 NetworkingDatacenter Bridging18.10.201212/12 Embedded SystemsM2M: Sensoren, Tools, Einsatzgebiete22.11.2012VIIIErscheinungsterminvon unstrukturierten Informationen – zum Beispiel SocialMedia, Video, Audio, E-Mail –und kann diese indexieren, nochwährend ein Backup durchgeführt wird. Traditionelle Programme für die Datensicherungsind dazu nicht in der Lage.Der klare Vorteil dieses Ansatzes: Backup- oder Archivdaten können gezielt durchsuchtwerden. HP hebt hervor, dasses Support für viele ERP- undVMware-Anwendungen gibt. Außerdem ließen sich aus abgelegten Dokumenten in MicrosoftsSharePoint oder Exchange gezielt Informationen herausfiltern.HP bietet ferner eine PrivateCloud-Lösung für mit Autonomyindexierte Daten an, für die eseinen sicheren Zugriff über dasInternet geben soll.(sun)Hartmut Wiehrist Fachjournalist in Münchenund Herausgeber des „StorageCompendium – Das Jahrbuch2006/2007“.Literatur[1]ˇRachel A. Dines and BrianW. Hill, Backup versusArchiving: Firms NeedSeparate Strategies ForEach, Juli 2011[2]ˇIBM System StorageKompendium, 2. Auflage2010, S. 166[3]ˇFred Moore, „StorageSpectrum“ Horison Information Strategies, S. 76[4]ˇDataCore, AutomatedStorage Tiering, 2011[5]ˇwikibon.org/wiki/v/Assessment of EMC ProjectThunder, Server ardware/centera.htm[7]ˇTaneja Group, ArchivingBeyond File Systems:Object Storage – EMCCentera And Disk Archival,Januar 2009, S. 1[8]ˇEnterprise Strategy Group(ESG), EMC Centera Optimizing Archive Efficiency,Januar 2009, S. 9Alle Links: www.ix.de/ix1208121iX extra 8/2012

An Bundles aus Back - up-Software und ausgewähltem Storage mangelt es dennoch nicht. Beim Archivieren werden typischerweise die Daten nicht verdoppelt, also kopiert, sondern