Watson Analytics是IBM基于Watson认知技术构建的1个创新云分析平台,它为用户提供了1系列自助式的分析服务,包括数据准备、数据探索、预测、构建分析仪表盘等。Watson Analytics的1项重要特点是简单易用的基于自然语言的自助式分析,使得“人人都能做分析“,即使是不懂IT的人士。在体验这项服务时,用户只需要上传数据,点击“探索Explore”,Watson Analytics就会分析数据,用自然语言罗列出用户可能感兴趣的1系列问题。点击其中的问题,Watson Analytics会针对该问题,展现出精美的图表,和用户进行交互式的分析。然后,用户可以利用“预测Predict”功能进1步做深入分析,或通过“组合Assemble”功能,组合1系列的分析图表进行综合分析。
最近,笔者试用了1下Watson Analytics服务,虽然目前Watson Analytics的自然语言部份还不支持中文,但Watson Analytics易用、直观的启发式自助分析服务,还是给人留下非常深入的印象。下面就让我们1起体验1下吧。
数据准备
根据Watson Analytics社区的1篇教程,笔者使用的数据是下载自 www.happyplanetindex.org 的各国的幸福指数数据(不代表官方数据,这里纯洁作为学习使用。)目前网站的数据时间大约是2010⑵012年的,很多数据是根据盖洛普Gallup等咨询公司的问卷调查统计得到的。
数据是1个简单的Excel表格,共11个字段,字段描写如上图,数据中包括各个国家的HPI(Happy Planet Index)幸福指数和排名,和1些相干数据例如人均GDP,人口,生活水平期望指数,生态足迹(Footprint gha/capita这个指标8卦几句,指标评估人均对生态的影响,是个有趣的指标,有兴趣的同学可以在 http://ecologicalfootprint.org/Global%20Footprint%20Calculator/GFPCalc.html网站计算自己的生态足迹。)
数据分析
数据准备好了,让我们开始分析吧!分析前需要在Watson Analytics上注册1个免费的试用账号,https://watson.analytics.ibmcloud.com/。注册登录后,进到欢迎页面,点击Add,然后选择Desktop,选择你的Excel数据文件,选择Upload,页面显示Transfer,完成后数据就绪了。
下面点击Explore开始分析。甚么?还没有建模,还没有设计报表格式?对不起,在Watson Analytics上真的不需要。更欣喜的是,点击Explore后,Watson Analytics会分析Excel数据,并且通过自然语言处理,生成1系列你可能感兴趣的问题(英文显示,这里翻译成中文易于理解),例如:
让我们首先点击第1个问题:各个国家的幸福年份数是多少?(What are the values of Happy Life Years by Country?) Watson Analytics 会自动辨认我们数据中包括国家数据,通过世界地图展现 :
其中,色彩越深的部份代表这个国家幸福的年份越久。好吧,这项数据明显老牌发达国家占优势。那末撇开历史,活在当下的话,哪些国家更幸福?
点击图中的分析指标”Happy Life Years”,从下拉菜单中将指标替换“Happy Planet Index”,图形产生了变化,现在显示的是当下的各个国家的幸福指数:
嗯,明显金砖4国为首的发展中国家当下更幸福。
下面我们想找出那些对幸福生活标准期望高而且现实也确切生活幸福(梦想成真)的国家,回到开始的界面,点击另外一个问题:哪些国家的幸福生活期望指数和幸福指数都比较高?(Which countries have high measurements for life expectancy and well-being?) 我们得到了下图:
这里纵轴代表幸福感(Well-being),横轴代表对幸福生活的期望(Life Expectancy),因此越靠近右上角的国家在两个指标上都越高,越接近梦想成真了。这里有丹麦(Denmark),加拿大(Canada),哥斯达黎加(Costa Rica)…
慢着,为何气泡有大有小?原来图里还有1个玄机,这里气泡大小代表了另外一个指标:生态足迹(Footprint),气泡越大代表人均生态足迹越高,即对环境影响越大。光幸福还不够,幸福不能以破坏自然环境为代价,保持可延续发展,才能延续幸福。比较1下右上限的气泡大小,我们发现哥斯达黎加实在是人类楷模,不但幸福指数高,而且那个气泡比起丹麦,加拿大小了几圈呢,说明人家对生态环境的影响还要小,给个大拇指吧!
说到幸福感(Well-being),脑中不由浮起了那首歌“幸福在哪里?”,那末幸福感和哪些因素有关呢?是财富吗?让我们点开这个问题:幸福指数和人均GDP关系大吗?(What is the relationship between Well-being and GDP/capita by Country?),出现了下图:
这里纵轴代表人均GDP,越靠上越高,横轴代表幸福感(Well-being),越靠右越幸福。先看看右上角,丹麦,芬兰,奥地利,比利时,还有加拿大,澳大利亚,这些国家不但富有而且幸福指数高。那末难道真的没钱就没幸福,还不给人穷着乐了?请看回右下角,哥斯达黎加,巴西,阿根廷这些国家,虽然说人均GDP只有15K左右,离右上角那些国家的40K人均GDP差了1倍多,但是幸福指数却差距不大。看来幸福指数其实不由人均GDP决定,钱确切不是万能的。
那末到底甚么才是幸福感的主要因素呢?
这里我们就需要用到Watson Analytics中的预测(Predict)功能了,回想1下我们的数据,在Excel的每行数据中都含有幸福指数,和相干的人均GDP,人口数量,人均生态足迹等数据,我们可以建立1个预测模型,看看哪些相干变量对幸福指数影响最大。点击预测(Predict)功能,把上述指标放进要预测的列表,然后开始预测,我们得到下图:
这张图对关联指标进行了各种组合(纵轴的Sub Region),并分析了它们对幸福指数(横轴)的影响。我们发现第1组指标对幸福感的影响是最强的。那末第1组中都有哪些因素?我们点击最上面的横条,具体来分析它:
在这张图中,我们有了答案。图中的标题显示,原来对幸福指数贡献最大的是生态足迹(Footprint)和幸福的年数(Happy Life Years),可信度是81%。图中横轴是生态足迹(Footprint),纵轴是幸福的年数(Happy Life Years),色彩越深代表幸福指数越高。对照这两个指标,又以纵轴幸福的年数(Happy Life Years)影响更大,就是说幸福的年数越多,则继续幸福的可能性越大。为何?难道幸福是可以遗传的?非也,笔者的结论是只有每代人都努力减少生态足迹,减少对环境的破坏,保持长时间可延续发展,才能造福子孙后代,世代幸福。你赞同吗?
如果对这个结论背后的算法感兴趣,可以切换1下视图,下图中Watson Analytics会告知你它用的算法,由于我们需要分析的幸福指数是1个连续变量,Watson Analytics自动使用了线性回归(Liner Regression)算法,建立了1个多阶方程式来计算相干变量如人均GDP,生态足迹等因素与幸福指数之间的关系,并选择了其中关联性最紧密的组合。固然,这都是图形背后的故事,Watson Analytics的强大的地方在于分析人员根本不需要关注复杂的模型和算法,1切都已自动化,用户需要关注的只是分析结果和它的含义。
怎样样?通过本次对Watson Analytics分析服务的体验,是否是对分析进程的易用性和基于自然语言的智能化引导印象深入?通过Watson Analytics,只要有数据,点点按钮,每一个人都可以进行数据分析,而且其实不需要关注精深的模型和算法。实际上,“看图讲故事”,透过精致的图表,分析后面的业务含义,才是分析员真实的关注点,这不正是分析师们期待已久的下1代自助式分析吗?
另外,本次体验只使用了Watson Analytics基本的数据探索(Explore)和预测(Predict)服务,可以说只使用了Watson Analytics丰富服务的冰山1角。Watson Analytics上还提供了对数据的加工(Refine)服务,对各种分析结果进行综合的组合(Assemble)服务,乃至可让Watson根据分析结果生成使人佩服的故事。Watson Analytics还可以结合IBM Bluemix公有云上的服务1起使用,例如使用Bluemix的DashDB存储更复杂更大量的数据源进行分析;进行社交数据、天气数据、物联网数据的分析等。目前,各行业的分析人员正在使用Watson Analytics构建自己的创新分析利用。在Watson Analytics的社区中,有些有趣的案例使人脑洞打开,例如用到Watson Analytics来挑选球员,构建自己攻守兼备的最好阵型https://community.watsonanalytics.com/dream-el-salvador-soccer-team/;
另外一个案例则分析读个本科学历对个人工作收入、工作时间的影响:
https://community.watsonanalytics.com/what-will-a-graduate-degree-give-me-exploring-the-american-time-use-survey-data-set/
笔者还有同事上传自己的每个月开消来进行分析
有了数据,有了Watson Analytics,分析如此简单,人人都能成为数据分析师。不多说了,祝您圣诞快乐,1起为中国的幸福指数加分吧!
上一篇 lab1的实验练习答案