文/恒泰证券股份有限公司 金学禹、聂文婷
(本文为“证券机构数字化转型与证券科技创新”征文活动入围文章。)
2020年初,新冠疫情引发了全球范围内前所未有的“封城”举措,大中小企业均面临严峻的挑战,也深刻意识到数字化转型的重要性。已经有不少企业开始利用数字化策略,通过加快企业信息化与数字应用进程,有效保障企业复产复工的效率。而证券行业相对其他行业来讲,数字化转型不仅仅是利用数字化手段来解决线上办公、视频会议、在线研发这样的内部管理问题,更是要从业务本质出发,利用人工智能、大数据、区块链、云计算等技术手段推动金融创新,形成对金融市场、机构及金融服务产生重大影响的业务模式、技术应用以及流程和产品。
一、大数据技术在证券行业的发展情况
证券行业作为世界上数据最为密集的行业之一,拥有大量的证券交易数据、客户数据、监管数据、行情数据等结构化与非结构化数据,这些数据具有体量巨大、高速产生、类型多样、分布协同的特征,证券行业天然需要通过大数据技术来推动业务的转型升级。
近年来,国内的证券公司逐步意识到大数据在企业数字化转型中的作用和地位,在大数据应用领域快速布局。在实际应用过程中,大数据应用并不是简单搭建一个大数据平台跑跑数据分析就算成功。技术升级与公司业务转型的契合、公司文化和心态的转变、组织架构的调整、相应制度的建立等,都需要有一套完整的解决方案。全方位的数字化转型势必要通过“以客户为中心”来统筹数据管理、构建业务逻辑,但证券公司内部各个组织之间,不同业务板块之间发展不平衡,历史包袱、系统割裂、数据孤岛都客观存在,转型之路任重道远。可以说,全方位数字化转型将重塑证券行业未来竞争格局。头部券商依靠雄厚的资本、先发的优势,势必吸引更多的优秀科技人才,大量积累的客户数据形成规模效应和大数据服务模型,同时在投研、资管、投行等方面的综合实力更强,有能力为客户提供更加专业的数字一体化服务。对于中小券商来说,金融科技的发展需要大量资金和人才的投入,一定程度上提升了转型的门槛,如何探索差异化发展的道路,借助大数据技术整合内部资源,或将成为中小型券商突破竞争瓶颈的关键。
二、大数据在证券行业的平台设计与实践
2.1 数据采集
数据采集作为大数据系统体系的首个环节,对于平台来说尤为重要。因此需要建立一套标准的数据采集体系,用以标准规范、保证性能、高覆盖率地采集海量的数据,并传输到大数据平台。其中数据采集分为日志采集与数据库等数据文件的数据同步采集。
数据采集规范方面,恒泰证券大数据平台统一了WEB与APP的埋点SDK,方便不同技术栈开发者以同样的方式调用;在数据层面,保证了日志格式的统一,有利于用户行为模型的定义与描述。
针对用户行为,数据规范对日志做了模型化处理,即日志中体现:用户(WHO)在什么时间(WHEN)什么地点(WHERE)做了什么事情(WHAT),称之为用户行为4W模型。对于用户行为数据,从事件分类上又具体分为页面事件、点击事件、统计事件,极大地满足了用户行为埋点丰富程度。
2.1.1日志采集
日志数据的采集主要是为了进行后续的数据分析,例如APP端数据采集,既可以帮助开发者分析各类设备信息,同时也能与产品端相配合,更好地了解用户,从宏观及微观角度洞察用户的各种行为,从而进行产品的优化迭代。
日志数据,包括了WEB页面、客户端APP、服务端日志等日志数据。对于WEB页面、客户端APP日志,更多的是用户行为数据的采集,采用埋点的方案,将数据实时传回大数据平台。
APP端日志上传,采用向服务器发送post请求的方式,服务器将数据追加到log文件中。其中APP端上传并不是将事件日志逐一实时上传,而是先将数据缓存在客户端,当累积到一定数量(如:100条)后批量上传。同时考虑到实时性的需要,当一定时间(如:5分钟)内没有达到批量上传的数量,也会将日志上传。
服务端在收到数据后会采用实时采集的方式将数据传回大数据平台,并进行数据解析后输入到消息队列,进入流式计算环节供应用服务使用。
2.1.2数据同步
证券公司IT系统里的数据源除了日志外,还有很重要的业务数据。业务数据普遍存储于关系型数据库中,如Oracle,MySQL,SQL Sever等,同时还有来源于文件系统的结构化或非结构化数据。
大数据平台的功能之一是数据集成,将不同来源、不同形式的数据整合在一起,所以从不同业务系统将数据集成到数据平台是非常重要的工作。
对于业务数据来说有两个特点,一是数据来源多样性,二是数据量大。所以需要针对这两种特性来设计数据同步服务。
图1 数据采集服务架构图
2.2数据开发
大数据平台的采集系统收集了大量数据后,只有经过整合与计算,深入挖掘建立合适的模型,才能被应用于各类业务中,从而实现大数据的价值,达到赋能业务和创造价值的目的。
对于海量数据与复杂的计算,大数据平台需要解决两大问题,数据存储与计算平台,本节针对数据开发过程中遇到的问题进行研究与介绍。
图2 大数据平台数据流转架构图
2.2.1离线数据开发
与传统数据开发相比,基于大数据平台的数据研发有以下特点:
由于数据研发人员技术栈的不同,导致在大数据平台上的数据研发工作任务成本变高。通过统一的计算平台与数据研发规范可以在一定程度上解决这一问题。
大数据平台的计算服务基于hadoop提供的mapreduce计算模型,解决了并行计算的难题,但开发复杂、学习成本高,所以大数据平台通过hive提供一套完整的基于sql的开发套件,为来自不同研发人员的各种数据处理任务提供统一的编程接口,并且提供性能与稳定性的保障。
2.2.2流式数据开发
在大数据平台,离线计算承担了大部分计算任务,但随着数据应用的越来越广泛,数据挖掘的深入,对数据的实时性要求越来越高,如果大数据平台不能实时处理各业务线的数据,就无法保证数据的新鲜与价值最大化。
流式计算技术是对离线计算技术的重要补充,已经成为大数据平台的标配,并且担当了重要角色。流式计算简单来说,就是系统每产生一条数据就会被采集系统立刻采集并实时发送到流式计算任务中进行处理。
流式计算有着时效性高、性能要求高、数据无限等特点,所以在架构设计上要有针对性。同时,计算任务严重依赖于采集任务于数据的输出,要进行整体考量。
图3 实时采集与流式计算技术架构
2.3 数据管理
数据平台搭建完成之后,还要保证数据的质量,所以数据的治理与管理尤为重要,主要是为了保障数据资产的完整性、准确性、一致性、及时性。根据指定的规范开发模型、校验模型、管理模型,为业务提供统一的、准确的指标。
2.3.1元数据
元数据可以认为是数据的数据,打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。可以帮助开发人员方便的找到其所使用的数据,并根据元数据进行数据管理和开发,提高了工作效率。
元数据的质量直接影响到数据管理的准确性,所以要设计一套完整的元数据体系。首先梳理最底层数据,对元数据做分类,减少数据重复建设,保障数据唯一性。同时要丰富元数据表和字段的使用说明批量数据上传业务意思,方便使用和理解。最后提供标准统一的元数据服务,打通生产端与消费端之间的链路。
2.3.2 存储管理
在大数据时代,网络应用种类繁多,用户对网络的依赖日益加重,背后意味着数据爆炸式增长,对大数据平台提出了新的要求,存储管理成为大数据平台的核心之一。有效的降低存储成本,提高数据的使用效率是存储管理的重要目标,
在分布式文件系统中,为了提高可用性与性能,数据往往有多个备份,所以数据压缩成为降低数据成本的重要手段之一,这中间要充分考虑到平衡数据读取效率和存储成本,采用合适压缩比率的压缩技术。
通过元数据,周期性的对数据进行巡检,对数据无更新、无访问、无任务等数据表进行优化处理。
数据的生命周期管理是存储管理的重要手段,对数据按照生命周期进行分类,对于没有价值的数据逐步进行淘汰处理,达到用最少的成本存储最优价值的数据。
2.3.3 数据质量
数据质量是数据分析结论有效性和准确性的基础,保障数据质量是大数据平台责无旁贷的任务。
对数据质量的保障,首先要确定数据质量评估的标准,根据需要从以下4各方面进行评估:完整性、准确性、一致性、实时性。
数据质量建设是一套完整的工作方法,需要数据需求方、开发人员遵循一定的方法与标准批量数据上传业务意思,包括需求审核、数据加工各环节校验、测试标准,同时要针对数据指令各方面提供相关工具,以提高效率与工作质量。
三、大数据的业务应用与研究
作为业务发展的重要技术支撑手段,大数据技术已经逐渐融入证券公司日常工作的各个环节,通过大数据建设总体规划,实现公司内外部数据进行融合,建立统一和多维化的公司数据模型,实现数据驱动的业务模式创新,原来业务运营是靠人、靠经验为主,现在是以数据驱动,这样所有的过程和结果都可以量化,凸显数据驱动业务创新的新业态。
下面通过企业管理、客户营销、客户安全和产品研发等领域的大数据应用案例,简要阐述大数据平台在证券行业的业务应用。
3.1 智能管理
随着证券公司大数据中台的建设,各部门各业务数据的统一接入,实现数据集中、口径一致,确保公司各级部门均可在保证数据隐私和安全的前提下使用数据,充分发挥数据作为证券公司重要资产的业务价值,实现公司内部数据共通共享。在业务管理上,实现产品、客户等数据的企业级视图的统一,有效促进业务的集成和协作,并为企业级分析、协同开发、交叉销售提供基础。同时按角色聚合业务数据,让不同层级的管理者及员工对业务目标始终有着全面清晰的认知,比如恒泰证券的网点管理平台和员工端超级APP,就是基于大数据技术提升中台能力,进而提升公司的管理效率和投产效率。
3.2 客户营销
随着互联网深化发展,线上流量红利基本殆尽,而证券行业特有的获客成本高、用户转化节点多、转化周期长的特点却没有改变,需要利用大数据技术精准营销客户,促进活跃用户稳步增长的同时不断提升用户的生命周期。这种建立在精准定位基础上的营销活动,可以最大限度的摊平运营成本。
根据客户多维度的数据描绘每个客户的画像,包括风险等级、个人属性,账户资产,操作数据,偏好信息等,通过标签和推荐模型给不同类别的客户匹配不同的资讯与产品信息,从而提升营销成功率,减少冗余信息对客户干扰。在传统的数据运算模式下,数据为集中存储,串行计算,即客户数据存储在一台服务器上,必须先计算完一个客户的数据再计算下一个客户的数据,当客户数量巨大的时候,存储器的存储负荷过重,运算非常浪费时间。而恒泰证券的大数据平台做系统架构的时候选择采用分布
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。