干货到!!大数据知识架构的流程梳理!~
bigdata吧
全部回复
仅看楼主
level 3
迷迭香纯 楼主
越来越多的企业把大数据作为战略项目编进发展议程中了。当把大数据落实到真正的项目中时,具体的流程应该怎么走才最高效呢?哪些重点一定要牢记才能够少走弯路呢?为你一一道来。
一、第一步——数据清理
一般而言,传统行业一来就说要搞大数据,一般都会是一种噱头,因为之前的数据量不会很大,所以基本上都是一些统计分析内容为主。但重点是,这些原始数据里边一定会有许多的问题,这个时候,对数据的清理过程就会显得尤为重要,需要对原始数据有深入的了解,只有对数据更为了解的时候,才能更好地补全、替代。将原始的数据转换成PC能读懂的数据,简单说便是如此。
另外,对数据的理解也非常重要。因为,这里边牵扯到的知识有数据清理、相关的ETL技术,等等。换句话说,做数据分析,要清楚知道数据在哪里,如果不清楚数据的位置,分析也就无从谈起。这里也涉及一个4:3:3的原则,对原始的数据要从测试、训练、验证这三个维度来进行训练,从而构成一个循环,提高你的数据最终的成功度。而当你的数据入库的时候,注意,决定着你后期读取的快慢,就在于是采用结构化还是非结构化这点。
二、第二步——数据分析
清理完数据后,到了分析数据这一轮,其决定着项目的成败,也是产品经理需要重点把握的地方。
这一步需要结合业务来分析数据,而不是单纯理解数据,不同行业不同工种对同一数据的理解是不同的。相比之下,业务人员对数据的理解更加深入。作为产品经理,在没有对全部行业都了解的情况下,只能够以最大限度来理解数据的价值。在这一步,产品经理需要与业务人员深入交流,如何分析数据、如何理解里边的特殊值、如何去找到所要求的目标数据,必须确保对数据有了详细的了解后,才能够在接下来的环节中脱颖而出。
三、第三步——算法选取
很多人会忽视这一步,但是,要是初期的算法选取不当,会造成后期的结果错误,这也是致命的。
而在算法选取方面,也是需要结合业务来实施的。首先,要弄清楚业务那边主要关注的是什么指标,与这一个指标相关的参数有哪些,这些参数都是如何影响这些指标的,等等。至于算法的准确度,可以通过对数据颗粒度的细化来不断提高。我们都知道,不同的代码对系统的资源调度是不同的,对算法的了解程度将最大限度地决定了最终产品的反应快慢。
四、第四步——需求分析
用户的需求不明确,或者说不是那么明确,甚至用户的需求是可以被引导的,是传统行业的特征。一直以来,用户的需求都分为四种:强需、弱需、真需、假需。大圣众包威客平台(http://www.dashengzb.cn/)。
要清晰地分辩这些需求,是要求产品经理具有相关行业背景的。因为不同行业、不同公司对人的需求是不同的,如何去挖掘用户的需求,并将这些需求转换成为可以落地实现的产品,这是值得深思的。
五、第五步——部门沟通
大数据产品,可以分为三条线:产品、业务、研发。这样就涉及到了部门与部门之间的沟通。业务部会有许多的用户需求要经过产品部的人来向研发部反馈,而研发部也需要产品部的人把自己的工作落实到实际的项目中来。部门间的协调沟通、统筹安排显得尤为重要。
另外,领导层也许会不太懂大数据能够做什么,这就需要产品部给领导层以通俗的语言来讲明白。而对合作厂家来说,更需要企业方给到
正确的
引导,才能够让对方看到合作的可能,从而为项目的发展提供动力。可见,沟通在发展大数据项目当中的地位,也非了了。
随着大数据产业发展带来的巨大效益,传统行业对大数据的渴求不再单单地基于概念,而是想要其真正地落地,真正地辅助业务创造价值。相信,随着越来越多的实践和对人才的培训,国内的大数据产业生态圈会更繁盛。(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包微信服务号,或添加大圣妹个人微信号(dashengmeme),注明“行业+职业”,拉你入big data &BI交流群330648564。)
2016年07月19日 07点07分 1
1