Mis On BIG DATA Ja Kuidas Seda Töödelda - Esileht

Transcription

Mis on BIG DATA jakuidas seda töödeldaOleg BogdanovSAS Institute,tehniline konsultantCopyright 2012, SAS Institute Inc. All rights reserved.

Analüütika väljakutsed sel aastakümnel Andmesalvestuse hinna jätkuv langus Aastal 2000 1GB maksis keskmiselt 16.06,1 TB Andmeait oli suht haruldanenähtus Nüüd maksab GB kettamälu 0.0621ja TB alla 100 Teiselt poolt tehnoloogia võimaldab koguda ülisuuri andmemahtusid, infot objektide käitumisest,transaktsioonidest, harjumustest, tegevustest. Eilegi mainitudsotsiaalvõrgustike andmed, astronoomilised andmed2Copyright 2012, SAS Institute Inc. All rights reserved.

ANDMETE MAHT- MAHT (Volume)- ANDMEFORMAATIDE PALJUSUS (Variety)- TEKKIMISE JA TÖÖTLUSE KIIRUS (Velocity)UNTSALLÜKEÜLEDMDNUD AOLULISED ANDMED (strateegiliste otsuste tegemiseks)TÄNATULEVIKCopyright 2012, SAS Institute Inc. All rights reserved.

“Big Data” – uus lähenemineSee kõik eeldab ka analüütikult veidi teistmoodi lähenemist.- Pigem heuristiline kui algoritmiline, andmetest lähtuv analüüs- Andmete eelvaatlemise ja eelanalüüsi (data exploration) tähtsusVana hea normaliseeritud „Andmeait“ (EDW) peab muutuma „AnalüütiliseksAndmeaidaks“ (ADW), mis ei ole enam täiesti normaliseeritud, kuid onorienteeritud analüütiliste ülesannete lahendamisele (mudelid)„Big Data“ on suured mahud struktureeritud ja struktureerimataandmeid, mille haldamine tavapäraste relatsioonilise andmebaasi- jaandmetöötluse vahenditega on raskendatud, kui mitte võimatu (maht,formaadid, kiirus) .4Copyright 2012, SAS Institute Inc. All rights reserved.

Mis teha ?Uute riistvaraliste vahendite kasutuselevõtt (kiiremad protsessorid, SSD)Andmetöötlus jagamine paralleelselt käivitatavateks mooduliteks javastavate algoritmide arendamineAndmed ja töötlemine peavad olema võimalikult lähestikku.-Siirdada töötlemine andmete juurde-Tuua andmed mälusse, kus toimub töötlemineVõimalikud kombinatsioonid ülalmainitutest (palju sõltub sellest, mis kujulandmed on)5Copyright 2012, SAS Institute Inc. All rights reserved.

Kolm tehnoloogiat BIG DATA töötlemiseksSAS High-Performance Computing6Copyright 2012, SAS Institute Inc. All rights reserved.

SAS Grid tehnoloogia10GB andmetabel, mida oleks vaja töödelda- 1 core max. kiirusega 75MB/sec arvutab 133CentralsekunditFile- 192 core (52MB/core) ja ikka 75MB/sec 0.7 sekunditSystemGrid ClientSAS ProgramSAS Metadata ServerCodeAnalyzerGridControlServerGrid Node 1Grid Node n7Copyright 2012, SAS Institute Inc. All rights reserved.

SAS In-DatabaseCentral FileSystemSAS ServerDatabaseTablesSAS ProgramSAS Metadata ServerDatabase Server8Copyright 2012, SAS Institute Inc. All rights reserved.

SAS High-Performance Analytics (Appliance)DBAppliance NodeSAS High-Performance Analytics ApplianceProbleemAndmedEnneSAS HPALaenutagastuse tõenäosuse skoorimine1 miljard rida11-20 tundi54 sekunditMüügikampaania vastuste genereerimine kontaktiajaloopõhjal100M rida kontaktiajalugu2,5 kuni 5 tundi90 sekundit15M klienti9Copyright 2012, SAS Institute Inc. All rights reserved.

SAS LASR Analytics Server technologyCentral Entry PointIntegrationDATA PREPARATIONEXPLORER Monitor SAS LASR Analytic server Load and join data Create calculatedcolumns Perform ad-hoc analysisand data discoveryRole-based ViewsDESIGNER Create dashboard stylereports for webor mobileSAS LASR ANALYTIC SERVERApache HADOOPCopyright 2012, SAS Institute Inc. All rights reserved.MOBILE BI Native iOS applicationthat delivers interactivereports created in thedesigner10

AitähOleg.Bogdanov@sas.comCopyright 2012, SAS Institute Inc. All rights reserved.

SAS High-Performance Analytics (Appliance) SAS High-Performance Analytics Appliance Appliance Node Probleem Andmed Enne SAS HPA Laenutagastuse tõenäosuse skoorimine 1 miljard rida 11-20 tundi 54 sekundit Müügikampaania vastuste genereerimine kontaktiajaloo põhjal 100M rida kontaktiajalugu 15M klienti 2,5 kuni 5 tundi 90 sekundit