Datenverarbeitung Im Ganz Großen Stil - Sysbus

Transcription

Im Test: Talend Enterprise Data Integration Big Data EditionDatenverarbeitung im ganz großen StilDr. Götz GüttichTalend bietet mit "Talend Enterprise Data Integration "eine leistungsfähige Lösung zumEinbinden Umwandeln, Bewegen und Synchronisieren von Daten. Dabei können diebearbeiteten Informationen nicht nur von einer Vielzahl beliebiger unterschiedlicherQuellsysteme kommen, sondern lassen sich auch an eine entsprechend große Mengevon Zielsystemen verteilen. Dafür stehen mehr als 450 Datenkonnektoren zurVerfügung. Die "Big Data Edition" der Software beherrscht zusätzlich noch dieZusammenarbeit mit Hadoop und den dazugehörigen Datenbanken beziehungsweiseKomponenten wie beispielsweise HBase, HCatalog, HDFS, Hive, Oozie und Pig.IAIT hat sich angesehen, wie sich das System in der Praxis nutzen lässt.Wenn heute von Big Data ge sprochen wird, so meinen die be teiligten IT Spezialisten damitmeist eine Sammlung von Daten sätzen, die so groß und komplexsind, dass sie sich mit normalenWerkzeugen zur Datenverwal tung nicht mehr bearbeiten las sen. Diese riesigen Datenmengenentstehen zum Teil durch das ma schinelle Erzeugen von Informa tionen (Protokolle, Logs, Kame raaufnahmen und ähnliches),aber auch durch genaue Analysendes Kundenverhaltens (beispiels weise Verbrauchsdaten), wissen schaftliche Untersuchungen (wieetwa im LHC) oder durch dasZusammenführen mehrerer be reits vorhandener unterschiedli cher Datenquellen.Die genannten Daten – die teil weise in die Petabytes und Ex abytes gehen – lassen sich nurschwer auswerten, da traditionel le Datenbanksysteme hier bezüg lich ihrer Leistungsfähigkeit anihre Grenzen stoßen. Die Analy sen von Big Data laufen folge richtig auf anderen Systemen ab,die dazu in der Lage sind, paral lel auf tausenden von Rechnernzu arbeiten und ihre Ergebnissedann an eine zentrale Stelle zumelden. Die am weitesten ver breitete Lösung für die Arbeit mit1Big Data ist Hadoop. Dabei han delt es sich im Prinzip um einverteiltes Dateisystem auf Open

Source Basis, das die gespeicher ten Informationen auf mehrereDatenblöcke aufsplittet und dieseDatenblöcke dann auf mehrerenSystemen im Netz (dem Hadoop Cluster) verteilt. Auf diese Weisestellt Hadoop gleichzeitig Hoch verfügbarkeit und Redundanz si cher. Die Dateiablage und dasBearbeiten von Anfragen werdendurch einen so genannten Mas ter Node durchgeführt.Talend Enterprise Data Inte grationMit Hadoop steht eine sehr leis tungsfähige Lösung für die Ar beit mit Big Data zur Verfügung.Das Produkt kann externe Anfra gen annehmen, auf die einzelnenvon Talend Enterprise Data Inte gration ins Spiel. Bei Data Inte gration handelt es sich – wieoben schon skizziert – um eineLösung, die Daten aus praktischbeliebigen Quellen einlesen, nachden Angaben der Benutzer bear beiten und anschließend wiederexportieren kann. Mit dem Toolist es im einfachsten Fall mög lich, CSV Dateien einzulesen,bestimmte Felder wie zum Bei spiel Name oder Adresse darauszu selektieren und diese dann ineine Excel Datei zu exportieren.Der Leistungsumfang geht aberviel weiter und reicht von der Ar beit mit Business Intelligence Lösungen wie Jaspersoft überSAP, AmazonRDS, SalesforceNach dem Programmaufruf begrüßt Talend Enterprise Data Integration dieAnwender mit einem WillkommensbildschirmRechner im Cluster verteilenund parallel auf den einzelnenNodes durchführen. Die dazuge hörigen Ergebnisse landen dannwieder an einer zentralen Stelleund lassen sich von dort aus aus werten. Um die Vorteile von Ha doop nutzen zu können, muss al lerdings eine Möglichkeit exi stieren, die vorhandenen Daten inHadoop abzulegen beziehungs weise auch wieder aus dem OpenSource Systemherauszuholen.Hier kommt die Big Data Editionund ähnliches bis hin zu diversenDatenbanken wie DB2 oder auchInformix und eben Hadoop.FunktionsweiseTalend Enterprise Data Integrati on arbeitet als Code Generator.Die Anwender müssen für denEinsatz der Lösung lediglich eineDatenquelle definieren, beispiels weise eine CSV Datei oder eineDatenbank, und angeben, wie dasProdukt mit den Daten umzuge hen hat. Im Fall einer CSV Datei2lassen sich hier unter anderemdie Kodierung, der Field Separa tor und ähnliches festlegen, die indiesem Zusammenhang verfüg baren Optionen sind aber natür lich bei jeder Quelle unterschied lich. Sobald die Datenquelleexistiert, können die Benutzer sieals Icon im Arbeitsbereich plat zieren.Anschließend ist es möglich, diedurchzuführenden Arbeitsschrittezu definieren. Hier steht denUsern eine Vielzahl unterschied licher Optionen zur Verfügung.Zum Beispiel haben sie die Mög lichkeit, Daten zu filtern, zu sor tieren, zu ersetzen, umzuwan deln,zusplitten,zusam menzuführen und zu konvertie ren. Darüber hinaus lassen sichdie Daten auch über eine Map Funktion transformieren, also nurbestimmte Datenfelder auswäh len, die Datenfelder anders an ordnen, zusätzliche Daten – wieeine Nummerierung – automa tisch hinzufügen und vieles mehr.Für diese ganzen Umwandlungs features stehen auch wieder Iconsbereit, die lediglich in den Ar beitsbereich gezogen werdenmüssen und dann dort konfigu rierbar sind. Sobald die Daten quelle definiert wurde und feststeht, in welcher Form das Werk zeug die Informationen verarbei ten soll, geht es an die Definitiondes Exports. Dafür bietet TalendKonnektoren an, die den Kontaktzu den unterstützten Zielsyste men, wie Informix oder Hadoop,herstellen. Die Konnektoren vi sualisiert die Data Integration Lösung ebenfalls durch Icons, dienach einem Drag and Drop inden Arbeitsbereich zur Verfügungstehen und sich dort auch konfi gurieren lassen. Die Konfigurati onsoptionen hängen hier wiedervom Ausgabetyp ab, bei einem

Excel Sheet reicht es beispiels weise, den Ausgabepfad anzuge ben. Der Datenfluss zwischenden einzelnen Icons wird durchLinien repräsentiert, die die zu ständigen Mitarbeiter in denmeisten Fällen einfach mit derMaus ziehen können (manchmalist es auch nötig, bestimmte Ver bindungstypen aus einem Menüauszuwählen). Wenn all dieseSchritte erledigt wurden, lässtsich der Job starten. Daraufhinerzeugt das Data Integration Toolden zum Ausführen der Aufgabeerforderlichen Code, startet ihnund führt die Datenumwandlungdurch. Der generierte Code kannJava oder SQL sein und für Ha doop zusätzlich noch Map Redu ce, Pig Latin, HiveQL und mehrje nach genutzter Technologie.Dank des Ansatzes, die einzelnenArbeitsschritte durch Icons zusymbolisieren, denen die Anwen der nur die Rahmenbedingungenmitteilen müssen, und den Codedann automatisch zu erzeugen,haben auch Mitarbeiter ohne Pro grammierkenntnisse die Chance,komplexeDatenverarbeitungs schritte durchzuführen, die vielCode benötigen. Der eben skiz zierte Job war nur ein einfachesBeispiel, es ist auch möglich, mitdem Produkt viel komplexereAufgaben durchzuführen, wiebeispielsweise den Import vonDaten mit anschließendem Map ping bestimmter Felder, demUmwandeln einiger Datentypenund dem Sortieren der überarbei teten Ausgabe vor dem Export.VersionenVon der Talend Software stehenmehrere unterschiedliche Versio nen zur Verfügung. Zunächst ein mal die Open Source Versionen"Talend Open Studio for Data In tegration" und "Talend Open Stu dio for Big Data". Diese findensich auf der Webseite des Her stellers zum freien Downloadund lassen sich beliebig nutzen.Dazu kommen die kostenpflichti gen Produkte der Talend Enter prise Data Integration in den Edi tionen "Team", "Professional","Cluster" und "Big Data". Dieseunterscheiden sich von den OpenSource Varianten vor allem durcheine größere Zahl an Support Optionen (unter anderem mitSLAs) und durch zusätzlicheFunktionen wie Shared Reposito ries, Assistenten, Shared Jobs,Version Control, Referenzprojek te und vieles mehr. Die kosten pflichtigen Versionen ihrerseitsunterscheiden sich untereinanderwieder durch das unterstützteFeatureset, zum Beispiel denSupport von Lastverteilung,Hochverfügbarkeit und eben Ha doop. Talend gehört übrigens zuden ersten Anbietern, die Hadoopüberhaupt unterstützen. Auf derWebsite des Herstellers findetsich eine übersichtlich Auflistungder verfügbaren Software Varian ten mit ihren jeweiligen Funktio nen. Im Test kam bei uns die BigData Version der kostenpflichti gen Talend Enterprise Data Inte gration zum Einsatz. Es sei aberan dieser Stelle darauf hingewie sen, dass die Open Source Ver sionen auch schon einen relativgroßen Funktionsumfang haben,der für sämtliche Datenumwand lungsjobs "für den Hausge brauch" vollkommen ausreicht.Administratoren, die sich die Ar beit sparen wollen, Skripts zumDaten Im und Export zu schrei ben, sollten sich die Produkteeinmal ansehen.Der TestIm Test verwendeten wir eineUmgebung mit Hadoop 1.0.3, dieinnerhalb einer vSphere Installa 3tion auf Basis der IBM X Ser verarchitektur lief. Nach demEinspielen der Talend EnterpriseData Integration auf unsererWorkstation, die mit Windows 7Ultimate in der x64 Version ar beitete, importierten wir zunächsteinige Daten aus einer CSV Da tei, wandelten sie um und expor tierten sie als Excel Sheet, umuns mit der Arbeitsweise der Lö sung vertraut zu machen. Danachstellten wir eine Verbindung zuunserem Hadoop System her,importieren dieselben CSV Datennochmals und schrieben sie inHadoop. Anschließend ließen wiruns die Daten wieder ausgeben,um zu überprüfen, ob alles richtigfunktioniert hatte.Im nächsten Schritt verwendetenwir Testdaten aus dem Unterneh mensbereich mit 100.000 bezie hungsweise zehn Millionen Da tensätzen und führten Analysendieser Daten mit Hilfe von "Pig"durch. Zum Schluss griffen wirüber "Hive" auf die Daten in Ha doop zu und arbeiteten mit derDatenbank "HBase". Auf die ein zelnen eben eingeführten Begrif fe gehen wir später noch genauerein. Talend Enterprise Data Inte gration läuft übrigens auf Syste men mit der aktuellsten Java 1.6 Variante. Abgesehen davon emp fiehlt der Hersteller den Einsatzvon Windows 7 in der 64 Bit Version als Betriebssystem sowieauf Hardware Seite einen Stan dard Rechner mit vier GByte Ar beitsspeicher.InstallationUm Talend Enterprise Data Inte gration zu installieren, müssendie Anwender lediglich sicherstellen, dass auf dem System eineunterstützte Java Version vor handen ist und die Zip Datei mitden Talend Files in einen Ordner

ihrer Wahl (zum Beispiel c:\Ta lend) entpacken. Wenn sie an schließend die Programmdateiaufrufen, so verlangt das Systemerst einmal nach einer gültigenLizenz(bei der Open Source Ver sion ist natürlich kein Lizenz schlüssel notwendig). Sobald die se angegeben wurde, zeigt dieSoftware einige allgemeine Li zenzbestimmungen, die der An wender bestätigen muss. Nachdem Abschluss dieser Tätigkeiterhält der User die Möglichkeit,ein Repository (mit Workspace)anzulegen und ein erstes Projektzu erstellen. Nach dem Öffnendieses Projekts landet er im ei gentlichenEntwicklungswerk zeug, das ihn mit einem Welco me Screen begrüßt, in dem dieersten Schritte erläutert werden.Arbeit mit der LösungBei dem Entwicklungstool han delt es sich um eine von Eclipseabgeleitete Arbeitsumgebung, dieauf der linken Seite über ein Re pository verfügt, über das sichunter anderem Jobs, Joblets undMeta Daten definieren lassen.Die Jobs umfassen die über dieIcons symbolisierten Arbeitsan weisungen zum Umgang mit denDaten, die Meta Daten könnenzum Einsatz kommen, um Datei ,Datenbank sowie SAP Verbin dungen, Schemas und ähnlicheseinzurichten und die Joblets er möglichen es, einzelne Prozesseals normale Komponenten – alsomodular – zu nutzen.Zwei weitere interessante Funk tionalitäten finden sich im Unter ordner "Code". Die "Job Scripts"stellen Prozessbeschreibungen –also Anleitungen zum Generierenvon Code – in XML Form dar.Das bedeutet, mit den Job Scriptslassen sich die Prozesse komplettbeschreiben, was es beispielswei se ermöglicht, Funktionen zumImport von Tabellenbeschreibun gen und ähnliches zu realisieren.Die "Routinen" ermöglichen imGegensatz dazu die Definitionautomatischer Aufgaben, bei spielsweise zum Aufsplitten vonFeldern.In der Mitte steht oben der be reits erwähnte Arbeitsbereich zurVerfügung, in dem die Anwenderdie Jobs mit Hilfe der Icons defi nieren während sich unten kon textabhängig die Konfigurations optionenfürdasgeradeselektierte Icon bearbeiten lassen.An gleicher Stelle finden sichlette stellt also die Quelle für dieDrag and Drop Vorgänge dar, mitdenen sich die einzelnen Kompo nenten in den Arbeitsbereich zie hen lassen.Die ersten JobsIm Test führten wir an dieserStelle den ersten Job zum Importeiner CSV Datei und dem an schließenden Schreiben der darinenthaltenen Daten in ein Excel Sheet aus. Da wir diesen Job imWesentlichen schon in der Ein leitung beschrieben haben, setzenwir uns an dieser Stelle nichtweiter damit auseinander, son dern wenden uns direkt dem JobEin Auswertungsjob mit Pig, der auf dem Hadoop Server abläuftauch Optionen zum Starten undDebuggen der Jobs und Listenmit Fehlern, Meldungen und In fos.Am rechten Fensterrand stellt Ta lend Enterprise Data Integrationdie so genannte Palette mit deneinzelnen Komponenten bereit,die als Icons nutzbar sind. Dazugehören die Import und Export Konnektoren genauso wie dieFunktionen zum Bearbeiten derDaten, zum Ausführen von Be fehlen und vieles mehr. Es lässtsich auch jederzeit eigener Codein das System einbinden. Die Pa 4zu, der Daten aus einer CSV Da tei in Hadoop schreibt. Um die sen Job zu realisieren, verwende ten wird als Quelle die zuvorunter Meta Daten definierteCSV Datei mit ihren Konfigura tionsparametern wie Field Sepa rator oder Kodierung und zogensie als Quelle in den Arbeitsbe reich. Anschließend definiertenwir ein Exportziel. Dazu wähltenwir aus dem Ordner "Big Data"in der Palette den Typ "tHDF SOutput" und zogen das dazuge hörige Icon neben unser SourceFile. HDFS steht in diesem Zu sammenhang für "Hadoop Distri

buted File System". Nun machtenwir uns daran, das Output Iconzu Konfigurieren. Nachdem wires angeklickt hatten, konnten wirim Reiter "Component" unterdem Arbeitsbereich alle nötigenAngaben vornehmen. Dazu ge hörten die verwendete Hadoop Version, der Servername, das Be nutzerkonto, der Zielordner undder Name der Zieldatei in Ha doop. Für unseren Test setzen wirals Ziel wieder eine CSV Dateiein.ein "tLogRow" Element hinzu,das die Daten des Datenstromseinfach auf der Systemkonsoleausgibt. Nachdem wir – wie oben– eine Verbindung zwischen denbeiden Icons erstellt hatten,konnten wir den Job starten undden Dateiinhalt unseres CSV Fi les auf dem Bildschirm betrach ten. Die Ein und Ausgabe vonZum Schluss war es noch erfor derlich, eine Verbindung zwi schen den beiden Icons herzustel len. Dazu klickten wir mit derrechten Maustaste auf das Sour ce Icon und zogen dann mit derPig Latin in AktionMaus eine Linie zum HDFS Icon. Nachdem die Verbindung Informationen mit Hadoop undexistierte, konnten wir den Job der Talend Data Integration Lö starten (über den entsprechenden sung gestaltete sich demzufolgeReiter unter dem Arbeitsbereich). sehr einfach.Als der Task durchgelaufen war,informierte uns die Talend Soft Arbeit mit den Datenware über den erreichten Durch Nachdem wir mit den letzten bei satz in Rows pro Sekunde und den Jobs sichergestellt hatten,die Zahl der übertragenen Daten dass das Talend Produkt pro sätze. Direkt in Hadoop konnten blemlos mit unserem Hadoop wir mit Hilfe der Funktion System kommunizieren konnte,"Browse the file system" unter machten wir uns im nächstenhttp://{Name des Hadoop Ser Schritt daran, eine Datenauswer vers}:50070 überprüfen, dass die tung durchzuführen. Dazu lasenneue Datei tatsächlich am Zielort wir aus einer Kundendatei mitangekommen war. Insgesamt zehn Millionen Datensätzen einedauerte die Erstellung dieses Jobs bestimmte Kundennummer aus.keine fünf Minuten und im Test Hierbei nutzten wir die Vorteilefunktionierte alles Out of the Box von Hadoop und erzeugten mitso wie erwartet.dem Talend Werkzeug einen Co de, der dann in das Hadoop Sys Nun wollten wir natürlich auch tem übertragen wurde und dortDaten aus Hadoop auslesen. Da die Datenabfragen durchführte.zu selektierten wir als Quelle aus Das Ergebnis der Anfrage spei der Palette ein Element namens cherten wir als File im Hadoop "tHDFSInput" und konfigurierten Dateisystem ab.es analog zum vorher eingerich teten Ziel mit Servernamen, Da In diesem Zusammenhang ist esteinamen und so weiter. Für die wichtig, zunächst einmal auf dieDatenausgabe fügten wir dann technischen Hintergründe einzu 5gehen. Hadoop verwendet fürBerechnungen über große Daten mengen den Algorithmus "Ma pReduce". Dabei handelt es sichum ein Framework zum paralle len Durchführen von Abfragenunter Einsatz vieler Computer.MapReduce umfasst zwei Schrit te: Zunächst einmal erfolgt das"Mapping", das heißt, der Mas ter Node erhält den Input, teiltihn in kleinere Unteranfragen aufund verteilt diese dann an dieNodes im Cluster. Die Unterkno ten splitten dann die Anfragenentweder nochmals unter sich auf– was zu einer Art Baumstrukturführt – oder fragen ihre Datenbe stände ab und schicken die Ant wort zurück an den Master Node.Im zweiten Schritt ("Reduce")sammelt der Master die Antwor ten und fügt sie zu der Ausgabezusammen, die die ursprünglicheAnfrage beantwortet. Auf dieseArt und Weise lassen sich dieAbfragen parallel auf mehrerenSystemen abarbeiten, was zu ei ner beeindruckenden Leistungs fähigkeit führt.Um MapReduce Programme zuerstellen, die auf Hadoop laufen,kommt die "Pig" Plattform zumEinsatz. Sie heißt so, weil sie die"Trüffel" in den Datensätzen fin den soll. Die dazugehörige Pro grammiersprache nennt sich "PigLatin". Für den Einsatz von Ma pReduce ist es also erforderlich,

spezielle Programme zu schrei ben. Der Code Generator TalendEnterpriseDataIntegrationnimmt den Benutzern hier diemeiste Arbeit ab und stellt Funk tionalitäten zur Verfügung, die esermöglichen, die Datenquellen,Abfragen und Ziele direkt mitden gewohnten Icons im Arbeits bereich der Entwicklungsumge bung zu definieren, den Code zuerzeugen (zum Beispiel MapRe duce oder Pig Latin), an die Ha doop Umgebung zu schicken unddort ausführen zu lassen.Im Test legten wir zu diesemZweck zunächst ein Element na mens "tPigLoad" zum Laden derzu untersuchenden Daten an. Ihmgaben wir als Konfigurationspa rameter unter anderem wiederden Hadoop Servernamen, diewelchen Wert haben sollte, umdie Abfrage nach der Kundenum mer umzusetzen.Noch kurz zum Schema: Da dieQuelldatei ja aus Daten wie Na me, Nummer und ähnlichem be steht, muss Talend Enterprise Da ta Integration wissen, welcheDaten zu welchen Feldern gehö ren. Die dazugehörigen Felderlassen sich unter Meta Daten alsSchema definieren und dem Sys tem mitteilen. Die Antwort defi nierten wir mit einem Icon na mens "tPigStoreResult", zu demwir den Zielordner und den Da teinamen für das Antwortfile hin zufügten. Zum Schluss stelltenwir noch Verbindungen zwischenden einzelnen Icons her, diesmalnicht mit der rechten Maustaste,sondern durch einen RechtsklickDie Anwender können sich jederzeit mit Hilfe des Hadoop Webinterfaces überden Status ihrer Jobs informierenHadoop Version, den Benut zeraccount, die zu untersuchendeDatei und das Schema mit, daswir zuvor im Bereich Meta Da ten konfiguriert hatten. Anschlie ßend erzeugten wir ein Filterele ment vom Typ "tPigRow" undteilten ihm mit, welches Feldauf das betroffene Element unddie Auswahl des Befehle "PigCombine" im Menü "Zeile", dawir ja ein Script zur Ausführungauf dem Hadoop System erzeu gen wollten. Anschließend starte ten wir den Job und konnten kurzdarauf im Web Interface des Ha 6doop Servers das Ergebnis be trachten, das wie erwartet ausfiel.Die Arbeit mit den Pig Elemen ten lief also im Test vollkommenproblemlos ab.Im nächsten Job machten wir unsdaran, anhand der Einträge in un serer Kundendatei herauszufin den, wie oft welche Produkteverkauft worden waren. Dazukopierten wir den Job mit derAbfrage und ersetzten das tPi gRow Element durch ein Iconnamens "tPigAggregate", demwir mitteilten, dass wir eine Aus gabespalte namens "Anzahl" ha ben wollten und dass das Systemalle Produktnamen in der Daten bank (die bei den jeweiligenKundeneinträgen mit eigegebenwaren) zählen und die Namendann mit Angabe der Häufigkeitihres Vorkommens in eine Dateischreiben sollte. Nach dem Startdes Jobs konnten wir das Ergeb nis nach kurzer Zeit auf unseremHadoop Server einsehen.Arbeit mit HiveHive realisiert einen JDBC Zu griff auf Hadoop mit SQL. ÜberHive können Entwickler Hadoop Systeme demzufolge mit einerSQL ähnlichen Syntax abfragen.Für den Test von Hive legten wirzunächst im Bereich "Meta Da ten" eine neue Datenbankverbin dung zu der auf unserem Ha doop TestsystemvorhandenenKundendatenbank an. Dazureichte es, als Datenbanktyp "Hi ve" zu selektieren, den Serverund den Port anzugeben und auf"Check" zu klicken. Nach demerfolgreichen Test der Daten bankverbindung war diese in un serem Data Integration Systemvorhanden und ließ sich als Iconnutzen. In den Konfigurationsop tionen der Hive Datenbank Ver bindung findet sich unter ande

rem ein "Query" Feld, in das dieAnwender SQL Abfragen eintra gen können. In unserer erstenAbfrage untersuchten wir dieKundendatenbank daraufhin, wieviele Kunden in "Hannover"wohnten. Dazu trugen wir dieAbfrage "select count(*) from{Datenbank} where city like'%Hannover%'" in das Query Feld der Datenbankverbindungein, verwendeten als Ausgabewieder ein tLowRow Elementund erzeugten eine Verbindungzwischen den beiden Icons, überdie das System den Count Wertausgab. Kurz darauf konnten wirdie Zahl der betroffenen Kundenauf der Systemkonsole einsehen.Die Arbeit mit Hive gestaltet sichdemzufolge ähnlich einfach wiedie mit Pig.Unser zweiter Hive Job sollte diekomplette Datenbank in eine Ex cel Tabelle schreiben. Dazu pass ten wir die Query in unsererQuellverbindungentsprechendan, selektierte statt des tLogRow Elements ein "tFileOutputExcel" Icon und gaben den Zielpfad undden Dateinamen für das Ziel Filean. Danach stellten wir mit derrechten Maustaste noch eine Ver bindung zwischen den beidenEinträgen her. Kurz nach demStart des Jobs fanden wir alle ge suchten Daten in einem Excel Sheet auf unserem Rechner. Hiveist eine Technologie, die SQL Administratoren einen großenNutzen bringt. Sie lässt sich mitHilfe von Talend Enterprise DataIntegration ohne großen Auf wand einsetzen.HBaseHBase stellt eine verhältnismäßigeinfache skalierbare Datenbankdar, die sich zum Verwaltengroßer Datenmengen innerhalbeiner Hadoop Umgebung eignet.Sie kommt in der Regel mit Da ten zum Einsatz, die die Anwen der selten ändern, aber häufig er gänzen. Zum Abschluss unseresTests exportierten wir diverseDaten aus unserer bereits zu Be ginn genutzten CSV Datei in dieHBase Datenbank auf unseremHadoop System und ließen sieuns anschließend direkt auf unse re Systemkonsole ausgeben.FazitDie Talend Enterprise Data Inte gration Big Data Edition verbin det die alte Welt der Datenver waltung mit der Neuen. DasProdukt, das schon ohne die An Dazu erzeugten wir zunächsteinen neuen Job und zogen dasIcon mit der Quell CSV Dateiauf die Arbeitsfläche. Danachverwendeten wir ein tMap Ele ment, um die Daten aus der Dateiauszufiltern, die in der Daten bank landen sollten. Zum Schlusserzeugten wir ein Icon vom Typ"tHBaseOutput". Dieses verlangt Der Verbindungsaufbau zu einer Hi als Konfigurationsangaben im ve Datenbank gestaltet sich einfachWesentlichen den Hadoop Typ,den Servernamen, den Tablename bindung an Big Data Lösungenund die Zuweisung der Daten zu einen überzeugenden Funktions dendazugehörigenFeldern. umfang für die Datenintegration,Nachdem alle nötigen Verbindun synchronisation und umwand gen vorhanden waren, starteten lung mit sich bringt, geht mit derwir den Job und die Daten lande Big Data Anbindung noch einenten in der Datenbank.ganzen Schritt weiter. Dank desPig Supports lassen sich auf ein Um zu prüfen, ob auch alles rich fache Weise verteilte Datenabfra tig funktioniert hatte, gaben wir gen im Cluster durchführen undzum Abschluss die Daten in der die Unterstützung von Hive undHBase Umgebung auf unsere HBase ermöglicht den EinsatzSystemkonsole aus. Hierzu kam der Anwendung in praktisch allenein Element namens "tHBaseIn Umgebungen. Umfassende Dataput" zum Einsatz, das sich analog Quality Features und ein Pro zu der Outputkomponente konfi jektmanagement mit Schedulinggurieren ließ. Ein tLogRow Icon und Monitoring Framework run und die Verbindung zwischen den das Leistungsspektrum desden beiden Elementen schlossen Produkts ab. Talend Enterprisedie Jobkonfiguration ab. Nach Data Integration arbeitet zudemdem Start des Jobs erschienen die nicht nur mit der Hadoop Distri Daten wir erwartet auf unserem bution der Apache FoundationBildschirm. Benutzer von HBase zusammen, sondern auch mit denkönnen sich folglich ebenfalls Lösungen von Hortonworks,darauf verlassen, dass die Arbeit Cloudera, MapR und Greenplum.mit Talend Enterprise Data Inte Datenbankadministratoren undgration und ihrer Datenbank ohne dienstleister dürften an diesemSchwierigkeiten von statten geht. Produkt kaum vorbei kommen.7

Von der Talend Software stehen mehrere unterschiedliche Versio nen zur Verfügung. Zunächst ein mal die Open Source Versionen "Talend Open Studio for Data In tegration" und "Talend Open Stu dio for Big Data". Diese finden sich auf der Webseite des Her stellers zum freien Download und lassen sich beliebig nutzen. Dazu kommen die .