IBM Information Management Software Front Cover .

Transcription

IBM Information Management SoftwareFront coverInformation GovernancePrinciples and Practicesfor a Big Data LandscapeUnderstanding the evolution ofInformation GovernanceProviding security and trust forbig dataGoverning the big datalandscapeChuck BallardCindy CompertTom JesionowskiIvan MilmanBill PlantsBarry RosenHarald Smithibm.com/redbooks

International Technical Support OrganizationInformation Governance Principles and Practicesfor a Big Data LandscapeMarch 2014SG24-8165-00

Note: Before using this information and the product it supports, read the information in“Notices” on page vii.First Edition (March 2014) Copyright International Business Machines Corporation 2014. All rights reserved.Note to U.S. Government Users Restricted Rights -- Use, duplication or disclosure restricted by GSA ADPSchedule Contract with IBM Corp.

ContentsNotices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viiTrademarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viiiPreface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ixAuthors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiOther contributors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xivNow you can become a published author, too! . . . . . . . . . . . . . . . . . . . . . . . . xvComments welcome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvStay connected to IBM Redbooks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xviChapter 1. Introducing big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 What big data is. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.1 Origins of big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Dimensions of big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 How big is big data: Volume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.2 Variety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Velocity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.4 Veracity: Can data be trusted . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.5 Value: The key driver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 What big data looks like . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.1 Social media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.2 Web logs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.3 Machine-generated data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.4 GPS and spatial data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.5 Streaming data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4 Information Governance and big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.1 Metadata management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.2 Security and privacy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.3 Data integration and data quality . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4.4 Master data management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19Chapter 2. Information Governance foundations for big data . . . . . . . . . 212.1 Evolving to Information Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2 IBM Information Governance Capability Maturity Model . . . . . . . . . . . . . . 222.2.1 Outcomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2.2 Enablers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2.3 Core disciplines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.2.4 Supporting disciplines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Copyright IBM Corp. 2014. All rights reserved.iii

Chapter 3. Big Data Information Governance principles. . . . . . . . . . . . . . 333.1 Root principle for Big Data Information Governance . . . . . . . . . . . . . . . . . 343.2 Leading from principle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.1 Speed versus quality. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3 Core principles for Big Data Information Governance . . . . . . . . . . . . . . . . 373.4 Practical application examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Chapter 4. Big data use cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.1 Emerging big data use cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2 Big data exploration. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2.1 Identification of value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2.2 Enablement of Data Science teams . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Enhanced 360 view of the customer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.3.1 Expanding the range of customer-related data . . . . . . . . . . . . . . . . . 514.3.2 Personalized Customer Engagements . . . . . . . . . . . . . . . . . . . . . . . 524.3.3 Micro-market Campaign Management . . . . . . . . . . . . . . . . . . . . . . . 524.3.4 Customer retention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.5 Real-time demand forecasts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4 Security and Intelligence extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.4.1 Enhancing traditional security through analytics . . . . . . . . . . . . . . . . 554.4.2 Network threat prediction and prevention . . . . . . . . . . . . . . . . . . . . . 564.4.3 Enhanced surveillance insight. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.4.4 Crime prediction and protection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5 Operations analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5.1 Traffic management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.5.2 Environmental monitoring and assessment . . . . . . . . . . . . . . . . . . . 624.5.3 Predictive Maintenance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.6 Data Warehouse modernization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.6.1 Pre-processing hub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.6.2 Queryable archive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.6.3 Exploratory analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Chapter 5. Big data reference architecture . . . . . . . . . . . . . . . . . . . . . . . . . 695.1 Traditional information landscape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.2 The big data information landscape . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2.1 Capabilities for the new information landscape. . . . . . . . . . . . . . . . . 86Chapter 6. Introduction to the IBM Big Data Platform . . . . . . . . . . . . . . . . 976.1 Components of the IBM Big Data Platform . . . . . . . . . . . . . . . . . . . . . . . 1016.2 The Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026.2.1 DB2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1036.2.2 IBM PureData for Operational Analytics . . . . . . . . . . . . . . . . . . . . . 1036.2.3 IBM PureData System for Analytics . . . . . . . . . . . . . . . . . . . . . . . . 1046.3 Stream computing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104ivInformation Governance Principles and Practices for a Big Data Landscape

6.3.1 IBM InfoSphere Streams. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1066.4 Apache Hadoop and related big data architectures . . . . . . . . . . . . . . . . 1076.4.1 IBM InfoSphere BigInsights. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1086.5 Information Integration and Governance. . . . . . . . . . . . . . . . . . . . . . . . . 1096.5.1 IBM InfoSphere Information Server. . . . . . . . . . . . . . . . . . . . . . . . . 1106.5.2 IBM InfoSphere Data Replication . . . . . . . . . . . . . . . . . . . . . . . . . . 1136.5.3 IBM InfoSphere Federation Server . . . . . . . . . . . . . . . . . . . . . . . . . 1156.5.4 IBM InfoSphere Master Data Management. . . . . . . . . . . . . . . . . . . 1166.5.5 IBM InfoSphere Optim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1236.5.6 IBM InfoSphere Guardium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1246.6 Big Data Accelerators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1266.6.1 IBM Accelerators for Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1276.6.2 IBM Industry Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1286.7 Data visualization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1286.7.1 IBM InfoSphere Data Explorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.8 The IBM Big Data Platform and the reference architecture. . . . . . . . . . . 130Chapter 7. Security and privacy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1337.1 Why big data is different . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1347.2 Information security defined . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1357.2.1 Security framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1357.3 Data privacy defined . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1367.3.1 What sensitive data is . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1377.3.2 Privacy operational structure. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1377.4 How security and privacy intersect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1447.4.1 Implications and suggestions for big data . . . . . . . . . . . . . . . . . . . . 1447.4.2 Fit-for-purpose security and privacy . . . . . . . . . . . . . . . . . . . . . . . . 1457.5 Big data usage and adoption phases . . . . . . . . . . . . . . . . . . . . . . . . . . . 1457.5.1 Exploration phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1467.5.2 Prepare and Govern Phase (Assess and Protect) . . . . . . . . . . . . . 1487.5.3 Inventorying and classifying sensitive data . . . . . . . . . . . . . . . . . . . 1497.5.4 Consumption Phase (Sustain) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192Chapter 8. Information Quality and big data. . . . . . . . . . . . . . . . . . . . . . . 1938.1 Information quality and information governance . . . . . . . . . . . . . . . . . . . 1948.2 Exploring big data content. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1958.2.1 Knowing your data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1958.2.2 Call detail records . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1968.2.3 Sensor data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1988.2.4 Machine data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2028.2.5 Social media data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2048.3 Understanding big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209Contentsv

8.3.1 Big Data Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2098.4 Standardizing, measuring, and monitoring quality in big data . . . . . . . . . 2188.4.1 Fit for purpose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2198.4.2 Techniques for Information Quality Management . . . . . . . . . . . . . . 2208.4.3 Governance and trust in big data . . . . . . . . . . . . . . . . . . . . . . . . . . 233Chapter 9. Enhanced 360 view of the customer . . . . . . . . . . . . . . . . . . . 2359.1 Master data management: An overview . . . . . . . . . . . . . . . . . . . . . . . . . 2369.1.1 Getting a handle on enterprise master data . . . . . . . . . . . . . . . . . . 2379.1.2 InfoSphere Data Explorer and MDM . . . . . . . . . . . . . . . . . . . . . . . . 2429.2 Governing master data in a big data environment . . . . . . . . . . . . . . . . . 252Related publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255IBM Redbooks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255Other publications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255Online resources . . . . . . . . . . . . . . . . . . . . . . .

Big Data Information Governance principles. . . . . . . . . . . . . . 33 3.1 Root principle for Big Data Information Governance. . . . . . . . . . . . . . . . . 34 3.2 Leading from principle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36