设定题目的过程中,本想写大数据,想想算了;想写数据科学家,想想又算了。最后精准定位到数据科学工程师,再加上银行的背景,就有了行业和岗位的限定,旨在聊聊银行信息科技岗位在企业大数据分析挖掘工作实践的几个问题,这样不会出现理解上的偏差。之前断断续续的写了一些,这里不再特别回顾或关联,如有重叠,纯属巧合吧。
这次写字的动机,一方面数据领域的思考与实践是持续发酵的,另外一方面就是前几天支持课题评审的过程中有了一些新的收获和启发。辛辛苦苦两天半顺利完成支持任务,过程中旁听了同业在大数据领域的创新和实践,也默默在大脑中跟专家的点评进行了印证。对了银行 数据分析岗,所谓的收获不是指创新思路上的启发,更多还是结合自身工作进行的反思与提炼。
客观的说,从专业角度看我们在数据科学的探索和实践上还是有一定优势的,至少没在课题评审中听到和看到什么新东西;区域性银行或者特色业务背后的大数据支持还算有意思,但也不是体现在在专业上。过去的几年中,我们对大数据进行了持续的探索和努力,以至于到现在听创新课题讲解都味如嚼蜡,反而专家点评环节乐趣更多一些。想一下现实的工作场景,其实在很多问题上外部支持的力度和效果越来越弱了,在思路和方法上都要依靠自己的努力;因而想在类似创新评审中听到新东西是不容易的,另外真正有价值的东西同业也肯定不会拿出来说。回归主题,针对数据科学工程师的实战要求我进行了一些反思,下面逐一细细道来。
关于生态定位
大数据too damn big,大数据生态圈、hadoop生态圈,技术上还会加上业务生态,数据技术、应用旁边还有数据治理、管理这些软的,估计有人一听到生态就头大了。实际上也想不到有更好的描述,生态这个词本身说明了系统的复杂性。在生态里面的玩家很多,形形色色,各讲各话。反正建议还是少关心些模式、战略,多研究些实际问题。
穷理的过程中,大数据领域有一个很容易陷入的误区就是以偏概全,从一个点出发就对全局下一个判断,诸如大数据是万能的,或者大数据是无能的银行 数据分析岗,这样的结论看的多了自然就会厌倦。火爆的大数据给部分人带来的是深深的反感,一个很大原因在于其内在偏虚;不能光说价值,总得拿出点看得见摸得着的东西。
关于场景切入
大数据分析挖掘与应用场景密切相关,在规划切入点的时候应该与业务充沟通。在旁听的过程中发现部分课题项目在进行对应大数据规划过程中缺乏业务的支持,因而导致落地的困难,甚至有做了poc却根本无法立项的情况。解决这个问题很简单,无论数据治理还是数据分析,都应该定位业务痛点,通过管理和技术手段来解决问题。还有一种情况,就是将新的技术和分析思路补充到传统方法中,解决传统方法在新业务背景下解决不了的问题。
总之呢,大数据应该起始于解决实际的问题,和业务人员进行充分沟通交流后确定数据应用的需求。数据分析挖掘人员工作在企业数据领域的前沿阵地,在CIO或CDO的辖下应该要得到数据治理、架构规划、运维等部门的支持。最后,引用一下专家的观点,大数据应用最好往前线冲,而不是往后面走做些花里胡哨的东西。
关于创新模式
若前文所述,数据科学案例的重点在于分析业务面临的难点问题,通过数据科学技术制定解决方案,过程中要做到有的放矢。换句话说,现实中最大的问题不是技术或工具,不是hadoop和spark,而是如果把业务问题转化为数据问题,转化为模型问题。大数据不谈点hadoop似乎有点落伍,但若讲清楚hadoop与传统edw,与mpp之间的定位关联也不是易事。
从数据角度,也不是非要从3v、4v的角度去解决问题,公检法、工商、税务、水电、电信、互联网爬虫,似乎做模型就必须加上这些,尤其是风控模型。其实拿到数据、加到模型里面很容易,但用好这些数据发挥实际效果其实很难,相当于写篇论文与实际落地到业务流程中的距离。征信啊征信,其实把内部数据盘点用好更切实可行,一切靠量化结果说话嘛。还是那句老话,做模型就拿出对比结果,最好还能拿出实际应用效果。另外,要慎重面对数据分析结果与业务解释贯通的环节,数据泄露会害死人。
关于复杂的算法
在一个典型的数据挖掘场景下,大量的精力会投入到业务分析和特征处理上。基于零散杂乱的原始数据确定特征指标,制定详实的步骤来进行各种处理,最后一步跑模型往往是一蹴而就的事情。插一个题外话,这其实也是数据挖掘和机器学习相关论文的主要区别,写paper的时候没数据,当然就只能在算法上折腾折腾。在企业内做大数据挖掘,有很多的数据可以探索,这时候不应该把重点放在用多么多么复杂的算法,而是要考虑为什么要用这些算法,这些算法能够解决什么问题。
把简单的问题复杂化,这是不对滴。一个合格的数据科学工程师,思维模式应该是把复杂的问题简单化。进行大数据分析挖掘的时候,坚持目标导向设计解决方案,制定计划并推动落实。
关于数据与美食
经过接近一年的努力,我已经能够做到打开冰箱,翻翻现成的食材,然后就能做出一道让家人比较满意的料理(咳咳,其实煲的汤还可以,做的菜只是在香和味上还算差强人意
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。