首席数据官

Hi, 请登录

文因互联飞梭智能文档认知平台在金融场景的应用和实践

“过去的几年中,金融行业大部分还都是‘手工业’的处理方式。怎么用大数据、AI 等技术改变这一现状,实现从‘手工业’到‘大工业作业’的转变,需要做的工作还有很多,而且需要花一定时间”。

互联「世界的知识」

1991 年,Tim Berners-Lee 发明的万维网给全球信息的交流和传播带来了革命性的变化,打开了人们获得信息的方便之门。2017 年大数据的应用场景,Tim Berners-Lee 因发明了万维网(World Wide Web)—— 世界上第一种网络浏览器和「能让网络实现扩展的基础协议和算法」而获得 2016 年度的图灵奖。

这种信息的“连接”改变了世界。

2013 年,一个名为 “Memect ”的车库创业公司在硅谷成立。这个项目的发起人是 Tim Berners-Lee 带过的一名叫鲍捷的博士生。鲍捷还曾是“语义网之父”James Hendler 的学生,其主要研究领域是语义网和知识图谱。

走出象牙塔,踏上创业之路的鲍捷,希望实现另一种“连接” — 「互联世界的记忆」( Memory Connected,缩写为“Memect”),“世界的记忆”就是知识,他希望将世界所有的知识联系在一起。

2015 年,鲍捷带领团队回国,在北京创立了文因互联(MEMECT)。

“‘文因’指在人类中复制和传播的‘文化基因’,是文化知识的最小承载单元,我们最根本的愿景是希望把全世界的文化知识单元进行连接”,文因互联联合创始人 &CTO 张强,近日在接受 InfoQ 采访时讲述文因互联的初心。

大数据的应用场景_大数据应用场景top100_大数据放疗应用场景

张强,文因互联联合创始人 &CTO

“实现知识的连接,无疑是一个长期目标。‘信息的连接’经历了数十年的积累铺垫,知识互联可能是一段同样漫长的旅程。”张强表示 ,“AI 技术是帮助完成知识连接的核心点,这与 Tim Berners-Lee 所提出的语义网络的概念一脉相承。为了实现这一目标,我们要持续地进行 AI 建设,坚持将人工智能技术作为公司整个技术战略投入的根本出发点”。

而文因互联找到的短期目标是以金融行业作为切入点,将人工智能技术在金融领域落地,基于知识图谱技术和自然语言处理技术,为金融机构提供业务流程自动化和智能化解决方案。

针对文本分析场景,金融领域有大量的金融文档需要分析,且有海量的信息披露文件,相较其他行业,公开数据更易获得。对当时的文因互联来说,金融行业是最可能直接落地的场景。

AI 模型「元」引擎:飞梭智能文档认知平台

实现知识互联的愿景,有了切入场景,还需要有一个核心的引擎。

这个核心引擎便是文因互联的核心产品 —飞梭(FinSense)智能文档认知平台。

张强表示,飞梭智能文档认知平台是一个「元」引擎。基于该平台开发出来的产品/解决方案,将成为推动金融领域企业知识沉淀和数字化转型的助力引擎。

解决金融行业三大痛点问题

作为第一代飞梭智能文档认知平台原型的主要开发和设计者,张强表示,该平台的诞生主要为了解决金融行业存在的三大痛点问题。

第一,金融行业历史沉淀文档多,大量信息固化其中,提炼成本高。但因金融行业数据驱动的效益高,企业对数据具有高需求,因此即便提炼成本高,企业也愿意花人力投入。数据就像石油,其中非结构化数据具有更大挖掘潜力,飞梭智能文档认知平台就是要释放这种潜力。

第二,金融行业缺失足够的信息做决策支撑。以文因互联合作的某头部农商行为例,其在很多时候无法精准分析每一个经营指标对决策的影响。在金融监管方面,许多信息存在于文档中,但之前并没有被充分利用起来,久而久之,就形成了大量在进行决策时,所需要的信息匮乏的局面。

第三,金融行业风险控制具有滞后性。例如针对暴雷的企业,监管机构希望能将事后监管转为事前监管,强调信息的时效性。在这样的背景下,机器介入替代人力就成了必然的趋势。

提供从生产到应用的一站式数据服务

飞梭智能文档认知平台可以提供对数据生产的全流程、一站式服务,针对数据生产过程中的所有环节,包括需求定义、样本标注、模型训练、数据生产、数据质控、模型修正反馈等。

具体而言,飞梭智能文档认知平台的一个重要功能是文档解析,将图片、PDF、扫描件、Word 等非结构化数据转化成结构化数据。转化后仍保留非结构化文本中的特征和信息,如版面布局、图片、图表的结构、字体等特征,所有语料将作为文档理解的“原料”。

在自然语言处理层面,飞梭智能文档认知平台主要提供两项服务,其一是文档理解,对文档、图片等非结构化数据中的信息进行解析,从中抽取关键信息点,形成结构化的数据用于进一步的分析和加工。其二是文档生成,基于关键信息点和语言模型,生成文档摘要、底稿等,解决自动写作的问题。

“飞梭”平台另一核心功能是知识图谱,解决认知问题。基于多源异构数据,经过数据治理、实体消歧、实体对齐等技术构建知识图谱。通过规则推理、复杂网络分析等技术,进一步进行规则核查、企业画像、风险传导分析、产业链分析等一系列的场景落地实践。

历时 4 年研发

飞梭平台诞生于文因互联从 2C 向 2B 转型的大背景下。

2016 年,文因互联主要面向 C 端做新三板投研方向的文档分析。一年后,为解决数据痛点问题,公司将关注点放到自然语言处理方向。

大数据放疗应用场景_大数据的应用场景_大数据应用场景top100

2018 年,文因互联决定向 B 端转型。从这一年开始,文因互联开始密切和国内头部的金融机构合作,深入参与到金融机构的“转型”中去——从监管出发,一直到数字化转型。在这个过程中,文因互联观察到,金融机构对 AI 技术的认知越来越清晰了。

于是,文因互联团队决定打造一款通用金融文本智能处理和图谱构造平台,为金融企业和机构提供快速构建、部署和优化迭代文档处理和文档任职 AI 模型的能力。同时, 通过平台化的建设,企业可以协同业务人员、开发工程师、算法工程师、数据标注人员等多方资源,达到以最好的性价比进行模型生产和知识沉淀。这,即飞梭平台的时代使命。

飞梭平台的研发历程持续了大概 4 年时间,至今已历经三个阶段的迭代:

第一阶段(2018 年-2019 年),在这个阶段,飞梭平台主要解决金融企业/机构对 NLP 和知识图谱技术的具体需求,通过与不同的客户进行项目合作来打磨团队和技术,项目覆盖监管、证券、基金、银行等金融领域。

第二阶段(2020 年—2021 年),飞梭平台第一个版本上线。该版本以信息抽取任务为主要服务目标, 基于机器学习和深度学习技术,构造一个全流程的数据生产平台,主要解决金融文本中标准化的部分。

第三阶段(2021 年-2022 年)的主要目标是打造融合平台,在机器学习和深度学习的基础上,增加基于专家知识的模型开发平台,通过专家知识低成本、冷启动等特性实现快速启动,增强模型的可解释性。同时,通过可视化的开发界面降低开发门槛,满足模型开发精准度更高、文档覆盖面更大、使用人群更广泛等升级的需求。

飞梭智能文档认知平台团队的负责人宋劼介绍,今年团队的研发重心主要在多模型可视化技术的迭代及混合模型的开发方面。

大数据的应用场景_大数据放疗应用场景_大数据应用场景top100

宋劼,飞梭智能文档认知平台团队的负责人

独创多项优势技术

在飞梭平台构建以及迭代的过程中,飞梭团队自研了多项优势技术。

在算法层面,飞梭团队专注于对金融领域的文档做深度语义分析,平台中包含自研算法及对学术界最先进算法的迁移,通过多算法融合和基于知识结构的阈值算法等来提升模型的准确率。

值得一提的是,鲍捷博士提出了“柳叶刀”算法。在医学界,柳叶刀是一种很精细的手术刀。在金融领域,某一个具体的任务需要不同的小模型通力合作完成。文因互联希望构建像“柳叶刀”一般的模型,通过精细化的任务拆解及模型拆解,来完成自然语言处理任务。

在模型训练中,语料标注很重要,这项工作虽然门槛低,但工作量非常大。为了让标注过程更高效,飞梭团队独创了“麻瓜标注”技术。一方面使用已有的模型对语料进行预先标注,一键对数据集中的上百份、上千份语料进行标注,用户只需对有问题的地方进行修改。

另一方面,飞梭团队还独创了“语义扩展标注”技术。在金融文本中,通常一个表格包含许多信息点。该技术基于对表格结构的学习和语义理解,通过仅标注表头信息,“一键扩展”至表格中所有的单元格,实现标注数据的批量生产。在上百行的表格、跨页表格和复杂表头表格等场景中,该技术可以大幅提升标注效率。

标注语料的生成也是一个极消耗人力的过程。针对此问题,飞梭团队提出了基于预训练的小样本模型构建技术,只需少量标注就可以冷启动训练模型。

金融文档中信息类型复杂,既有标准信息,也有非标准的(信息)披露。飞梭团队通过混合模型的方式,结合多种子模型,即可处理许多非标准的披露,同时提高准确率。

飞梭团队还提出了置信度和错误追踪的方案。“对许多用户来说,即便模型准确率达到了 90%,但他们最在意的还是剩下的 10%。理论上讲,由于 AI 技术自身的边界性,可能永远无法实现 100%”,宋劼介绍,“为了提高剩下 10%的准确度,同时降低人员投入,飞梭团队会通过多种算法计算数据置信度,探测在提取信息中可能发生的错误情况,并迅速给出提示,这样质控人员就可以针对性地修改数据”。

可视化、工具化和知识沉淀

在产品层面,飞梭智能文档认知平台遵循可视化、工具化和知识沉淀等原则。

飞梭智能文档认知平台的用户具有“多维度”特征,几乎覆盖了金融领域所有的岗位类型,如业务人员、技术人员,数据分析师、模型的开发者、模型的训练者、标注的管理者、数据的管理者、系统集成的管理者等,因此可视化非常重要。

将所有开发的过程通过可视化的方式呈现并集成到飞梭平台上,极大降低了开发者的门槛。通过可视化、拖拽式的模块搭建流程,用户可以在短时间内无代码地实现 AI 模型上线。

工具化是指将用户在开发过程中产生的每一个子模型转化为内部工具,开发者可以通过拖拽的方式复用这些工具,降低开发成本,加快开发速度。

知识沉淀是指在金融领域有很多知识,包括训练语料、业务逻辑知识等大数据的应用场景,这些知识以前是沉淀在用户的头脑中,无法复用,因此 需要通过工具的帮助来进行沉淀和积累。比如基于历史存档的研究报告、招股说明书、债券募集说明书、公告等语料训练相应的预训练模型,金融词库的沉淀和扩展。

与市场上的同类产品相比,飞梭智能文档认知平台在长文本解析和适配方面具有优势。大部分的自然语言处理平台,是基于句子级别进行信息抽取和文本分类等 NLP 任务,而飞梭平台主要是针对多种文档格式,例如招股说明书、研报等多种样式的长文档进行解析和识别,包括其中的版面布局、表格内容、表格结构、篇章结构等特征,均需一一分离。一份招股说明书可能达到 800-1000+页,仅在几分钟内便可完成处理。

同时,基于过往的积累,飞梭内预置了多种金融文档模型,开箱即用。同时,多个基础模型针对金融领域做了特定的适配和优化。

“吃透”金融行业 ,推动金融从“手工业”到“大工业”转化

经过过去十几年的建设,金融行业经历了从信息化到数字化和智能化的发展。随着文本数据激增,如何对这些数据进行加工,来激活它们不同的应用场景,是金融行业目前面临的问题。

“过去的几年中,金融行业大部分还都是‘手工业’的处理方式,这一点这几年有了很大的改变。当然,怎么用大数据、AI 等技术改变这一现状,实现从‘手工业’到‘大工业作业’的转变,需要做的工作还有很多,而且需要花一定时间”,张强说道。

从一开始主攻一级市场,到后来逐步扩大到二级市场,再到后来为金融监管机构、券商、银行、评级机构、公募基金、咨询机构等提供服务,过去 7 年,文因互联已经“吃透”了不同类别的金融机构的“脾气秉性”,并能够根据其差异化的需求提供解决方案,帮助解决业务场景中的问题。

大数据放疗应用场景_大数据应用场景top100_大数据的应用场景

宋劼向 InfoQ 列举了一些代表性落的案例和效果数据,可以看到,应用上飞梭平台之后,金融机构/企业的自动化、智能化水平和效率有了大幅提升,人力成本也逐渐降低。

以某头部银行为例,在合同自动解析和抽取方面,以前人工解析一份合同需要约两个小时。飞梭系统上线后,提取一份合同的时间仅为一分钟,速度较之前提高 120 倍,实现了整体效率的提升。

在知识沉淀方面,如果采用人工方式,每个人的提取标准并不一致,而且一旦人员出现变动,交接和培训成本很高。应用飞梭平台后,上述问题得以解决。在业务定义的同时进行知识沉淀,防范人员变动的风险,提升整体效率。

某案例应用数据显示,飞梭帮助用户完成划款指令的自动分类和处理,在 19 个小时里帮助客户完成 1200 多笔指令处理,完成 2500 多只产品、10 天的对账工作。

在底稿生成方面,文因互联目前与券商合作撰写债券发行中的承揽、承做分析报告。以前一个分析师写一份报告需要三天时间,现在只需要 3 分钟就可以帮助分析师完成底稿生成工作,极大提升效率。

金融场景下的知识图谱自动化构建

知识图谱需要运用到业务场景里才能够发挥出它的真正价值。最近几年,随着 AI 技术的发展和大数据时代的到来,知识图谱的自动化构建成为可能。

在金融场景,文因互联采用自动化的方式构建知识图谱。自动化构建过程中,具体应用实体识别、关系识别、实体对齐、实体融合等关键算法和技术。

针对行业图谱构建成本高这一业内难题,文因互联提出了自己的降本增效方案。

一方面,文因互联针对存量数据,包括现存的非结构化/半结构化的数据,以及结构化的数据来进行整体的静态图谱的构建。面对庞大的数据量挑战,通过算法和算力的不断提升,可以持续降低数据处理的成本。例如目前的基于深度学习的构建技术,和人工处理对比,成本已降低不止 100 倍。

另一方面是对增量数据的处理。信息爆炸时代,各种信息不断演化,信息的承载方式不断变化,如何随着数据的形式变化,快速建立与之配比的模型和能力,让工具本身具有这样的演化能力,这是整体推进知识图谱构建的效率的核心点。

针对这一问题,文因通过构建通用可配置的数据源引入、特征工程

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论 1

  • 昵称 (必填)
  • 邮箱
  • 网址
  1. #1

    太厉害啦!值得我们学习

    250075083 2022-07-24 17:34:40 回复
二维码
评论