Pentaho Report Examples Leave Behind Document

Transcription

Pentaho Data Integration5 miliona zapisa u 10 minuta, svaki danGoran CvijanovićVinteh d.o.o.

Sadržaj prezentacijeZablude oko implementacije skladišta podatakaArhitektura integracije podataka i ETL procesaOpen source alati za integraciju podatakaPentaho Open source BIPrimjena Pentaho Data Integration platformeZaključak

Zablude oko implementacije SP-aSustav koji prikuplja, pročišćava, verificira i isporučujeizvorišne podatke u dimenzionalna skladišta podataka, teosigurava i implementira upitne i analitičke module zapodršku poslovnom odlučivanjuKorisnika smještamo u centar razvoja skladišta podataka,značaj pojedinih komponenti ima drugačiji pogledPut do točnih i upotrebljivih podataka, ETL procesiPodsjetnik prilikom planiranja izgradnje skladišta podataka

Što SP zapravo nijeMožemo li kupiti gotovo rješenje koje će biti naše skladište podataka?Ne. Moramo ga izgraditi ili prilagoditi, jer naše poslovanje nije identično nekom drugomSam proces izgradnje uključuje analizu poslovnih procesa i izvorišta podataka, manipulacijupodacima, modeliranje dimenzijskih struktura i korisničkih sučeljaZa izgradnju skladišta podataka ne koristi se jedinstven programski jezikNjega čini više komponenti koje uključuju različite programske arhitektureProjekt skladišta podataka čine grupe manjih projekata i fazaImplementacija se izvodi u više nezavisnih projekata koji omogućavaju da se izgradnja osnovnogskupa funkcionalnosti provede do krajaTime se omogućava da projekt skladišta podataka bude uspješan, upravljiv i izvediv u zadanomvremenuModel podataka ne predstavlja skladište podatakaČak i najbolje osmišljen model je beskoristan bez kvalitetnih podataka i razumljive prezentacijeKopiranje produkcijskog sustava na novi poslužitelj zbog ubrzanjaizvještavanja ne čini taj sustav skladištem podatakaBez promjene strukture onemogućena je osnovna namjena skladišta podataka, podrške poslovnomodlučivanju

Arhitektura IP i ETL procesaPogled od 360 stupnjeva na poslovne podatke, predstavlja modernitermin za pojam integracije podatakaPostići zadovoljavajuću kvalitetu integriranih podataka, krozosiguravanje kvalitetnog izvora transakcijskih podatakaUsklada dimenzija s ciljem postizanja jednakih vrijednostiUsklada vrijednosti za mjere značajna je za mogućnost izgradnjetakozvanih ključnih indikatoraIzbor arhitekture je elementaran i potrebno ga je odraditi u ranoj faziplaniranja ETL sustavaDva osnovna puta, korištenje gotovog rješenja tehnološkog partnera iliizgradnja vlastitog ETL sustava

Prednosti i nedostaci pojedinog modelaGOTOVO RJEŠENJEJednostavniji, brži i jeftiniji razvojEfikasno korištenje alata i bez poznavanja o programskih jezika iprogramiranjaPostojanje među-podatkovnog sloja (metadata) za postizanjeuniformnostiPostojanje predefiniranih konektora za mnoštvo izvorišnih i odredišnihsustavaKorištenje ugrađenih funkcija za sigurne komunikacije, enkripcije ikompresijeDobre performanse i podrška za rad s velikim količinama podatakaPodrška za rad u klasteriranim i sustavima, osiguranje integriteta

Prednosti i nedostaci pojedinog modelaVLASTITI RAZVOJMogućnost integralnog procesa testiranja korištenjem alata za testiranjeObjektno orijentirane tehnike omogućuju koegzistentnost i nadzor nadgraškamaNezavisnost od proizvođača alata za ETL, kao i puna fleksibilnost ukorištenju poznatih razvojnih alata i no bi bilo imati rješenje koje nudi osobine iz obije grupe, gotovorješenje sa svim svojim prednostima i mogućnostima, ali i dostupnostizvornog koda uz poznavanje programske platforme na kojoj je izrađenoKao takva mogućnost su open source rješenja koja predstavljaju većzrele produkte i rješenja koja mogu zadovoljiti široku paletu namjene

Open source alati i platforme za BIPentaho - najpoznatije open source rješenje, uključuje izvještajnisustav, analize, prezentacijsku platformu (dashboard) i rudarenjepodataka (data mining).JasperSoft - poznato ime iz svijeta izvještajnih open source platformi,nastalo udruživanjem Jasper Reports i iReport platformiActuate Corporation - BIRT platforma koja je dio Eclipse fondacije.Predstavlja platformu koja se intezivno razvija uz veliku podrškumatične kompanijeSpago BI - tvrtka koja nudi kompletno open source rješenje, ukombinaciji s profesionalnim implementatorima koji mogu izvestisložene projekte

Pentaho Open source BI

Primjena Pentaho Data Integration platformeUpotreba Kao sistemska platforma koriste seLinux serveri Java Runtime Environment verzije1.4 ili noviji Podržane platforme su: MicrosoftWindows uključujući i Vista verziju,Linux, Apple OSx, Solaris, AIX,HP-UX, FreeBSD Spoon, Pan i Kitchen moduliaplikacijske platforme

Prikaz PDI Spoon modulaSpoon modul Osnovni modul koji se koristi zamodeliranje i izvršavanjetransformacija i upravljačkihprocesa Proces koji opisujemo je učitavanjeweb logova koji su standardneApache Web Server strukture Izvršni proces sadrži elemente injihove tokove, u ovom slučajuoznaku početka procesa,pokretanje transformacije, tegrananje u slučaju greške prekidprocesa, a u slučaju uspješnogizvršenja slanje mail poruke oobavljenom poslu

Izvedbeni koraci – učitavanje iz tekstualne datotekeOpis Odabran je rad s redovima udatoteci koji su fiksne veličine, nisudozvoljeni prazni redci, te se radi oUnix formatu završetka retka Učitava se cijeli jedan redak ujedno tekstualno polje, a usljedećem koraku će se odraditiizdvajanje pojedinih elemenata izteksta

Izvedbeni koraci – Java scriptOpis Izdvajanje pojedinih elemenata izteksta napravljeno je pomoću Javascript jezika Elementarnom poznavanjesintakse i načina kako rastavititekstualno polje na pojedineelemente pomoću predefiniranihrazdjelnika u sadržaju teksta Sva su polja usklađena sastrukturom kolona u tablici Oraclebaze podataka

Izvedbeni koraci – mapiranje i pohranjivanje u bazuOpis Mapiranje u oblik pogodan zaspremane u bazu podataka S obzirom da smo vodili računa oveličini pojedinih varijabli injihovom tipu, mapiranje setrivijalno svodi na popis varijablikoje imaju jednak naziv kao ikolone u tablici web log Oraclebaze Povezivanje s velikim brojemrelacijskih baza podatakaomogućeno je već nakoninstalacije

ZaključakZa napomenuti Bitni segmenti u fazama razvoja produkta su svježina ideja i smjernice razvoja, veliki broj korisnika koji aktivno testiraju i prijavljujuuočene probleme, podrška u rješavanju problema Pentaho Data Integration je alat koji omogućava da se poslovi koji čine ETL proces obave brzo i pomoću alata u kojem je ugrađenoznanje o tome kako nešto napraviti, a na stručnjaku je da odredi što treba napraviti kompletna podrška za zapisivanje informacija o odvijanju procesa, statističkih podataka interaktivno kroz alat, kao i mogućnostipohranjivanja tih podataka u datoteke ili baze podataka koji se nadalje mogu analizirati ili prosljeđivati putem mail sustava

Pitanja za kraj?

Pentaho - najpoznatije open source rješenje, uključuje izvještajni sustav, analize, prezentacijsku platformu (dashboard) i rudarenje podataka (data mining). JasperSoft - poznato ime iz svijeta izvještajnih open source platformi, nastalo udruživanjem Jasper Reports i iReport platformi