首席数据官

Hi, 请登录

大数据时代“算法风险”的思考

➤ 隐藏的“偏见”

算法可能有隐藏的偏见,不是来自人为的任何意图,而是来自于提供的数据本身。这些偏差可能不会作为一个明确的规则出现,而是被考虑到成千上万个因素之间的微妙交互中。

企业中常见的误解是把大数据看作“大量的数据”,简单认为数据越多预测的结果就会越精确,但事实是:数据量的庞大并不意味着数据的全面与完善。

算法训练数据最关键的是数据的“全面性”。何谓数据的“全面性”?即每一条信息都涵盖了所有属性。例如,在预测用户行为时,一条描述用户数据的信息中须包含用户ID、用户姓名、性别、年龄、职业等大数据时代银行业特点,数据属性愈加完整,机器获取的信息就越多,距离商业目的就越接近。

此外,数据的“正确性”也很重要。数据的“正确性”不仅局限于数据不为空值或不为负值等简单规则,还需要基于一定的数据分析,发现数据的异常值。

例如,一家便利店平均每月用户访问4次,但是在本月发现某位用户访问30次,那么,30次的访问频次对于用户而言是否是一个异常值?包含或者剔除是否影响用户行为算法逻辑?是否对于模型训练出来的结果会有偏差性?是否符合算法训练的目的?这些均需要人为的判断,所以训练的数据仍不能保证不带任何人为决定因素。

大数据 行业解决方案_大数据时代银行业特点_教育行业 大数据

换而言之,算法模仿人类大脑的学习方式,而不是客观辩证的分析问题,因此由算法得出的结果也会带有人为偏见,从而影响公司决策。

➤ 缺乏可验证性

与传统的基于显示逻辑规则的系统不同,算法判断的是统计学上的真理,而不是真实的事实,所以,企业难以甚至无法证明算法结果的正确性。

部分算法是个黒匣子,按照本身训练的逻辑对数据进行归类分析,但是得出的结果往往难以人为解释,即算法决断一个值是否正确,但是不能解释这个值为什么正确。例如,大家熟知的“啤酒+尿布”的故事。沃尔玛超市管理人员在分析其销售数据时,发现“啤酒”与“尿布”这两件商品经常出现在同一个购物篮中。数据描述事物的现象,但是并未说明现象背后的原因,还需人为挖掘现象的本质,分析客户群体大数据时代银行业特点,验证是否符合业务逻辑。

当算法告诉我们一个结果,很可能需要花大量时间研究现象背后的原因,并且事实证明,很多时候,算法决断的结果很难验证,也难解释结果原因。

➤ 复杂的解决方案

大数据 行业解决方案_大数据时代银行业特点_教育行业 大数据

当算法出现错误时,在短时间内造成巨大损失,而错误诊断和纠正错误的解决方案可能是难以想象的复杂。

国外某公司通过模拟交易数据,形成新的交易算法,但由于技术上的缺陷,导致数百万个错误交易,使得一个投资公司在45分钟内损失4.55亿美元;某公司搜索算法系统存在“算法诽谤”

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论