2015-01-17 张一鸣-机器学习能带来更有趣的世界吗

2015-01-17 张一鸣-机器学习能带来更有趣的世界吗

大家好!很高兴能跟大家再次分享今日头条在机器学习上的一些实践。

最早,我们在创业之初的时候,在招机器学习的工程师,很多包括猎头都问我们,你们不是做媒体的嘛,为什么要招机器学习的工程师?你们不是做一个APP的嘛,为什么需要这么多人?我当时很想告诉他们,机器学习能够给资讯的阅读、信息的获取,带来很多很大的价值,发生很多有趣的事情。

我现在可以跟大家分享一下,在我们过去使用机器学习,在信息获取上,给这个产品带来的价值。

首先,我们回顾一下,其实刚刚前面几位演讲者都回顾了很多机器学习使用的场景和技术背景,我下面也从我们角度给大家分享一下。大概在2011年底、2012年初,当时我强烈的感受到,移动互联网的出现使物理世界在网络世界有了更多数字投影。比如说,微博的出现,让很多公共机构和知名名人,开始有了网络的ID。非常多的,无论是照片、文字、UGC内容,还用用户轨迹、LBS位置,在网络上有了投影。

同时,云端开始能够处理海量数据,在更早之前我们说日志分析,只是统计一下各种总数指标,但是到2010年之后,越来越多海量云存储、云计算诞生了,同时在云端出现了强烈的技术需求,具备了技术条件我认为还不够,必须要有强烈的业务需求才能带来技术在产品上的应用。

当然,我看前几位演讲者都讲到过,手机上有越来越多的传感器,这是第一,第二,越来越多的智能硬件其实是手机的外设,手机是人的外设,越来越多的智能硬件是手机的外设,手机上的传感器也是手机的IO能力,当然这可能不止手机,还有智能手表。手机又本身具备本地的云算处理能力、联网能力,所以它就成为了物理世界信息投影到网络世界的一个通道。当然还有别的设备,无论是Google眼镜也好,汽车上装的MBI设备也好,MBI把汽车情况投影到数字世界,特斯拉、宝马也是。

所以,有一个现象是,过去是依靠人来总结知识。比如说,在不同的历史阶段都有一些大家,把各领域知识汇聚成一本经典著作。现在我发现,可能通过书籍来汇聚知识,不是最有效或者容量最大的方式了,而是通过系统学习用户行为存储智慧。比如说,我们希望查过去几年春运的变化情况,我们其实可以在百度指数上查到,百度指数上可以查到北京到深圳、北京到南京不同的查询词,通过这些记录,我们可能比各种年鉴、书籍,能够更详细的得到历年春运的交通情况,这个知识的沉淀,并不是通过有一位学者去收集归纳分析过去几年发生的情况写成书,而是通过用户行为。我发现通过用户行为从广大用户中吸取知识、存储智慧开始出现,我觉得这可能是未来存储智慧的主要方式。

首先是感知,第二是理解,无论是查询也好、点击也好、收藏也好,通过这些了解用户的意图。系统感知理解了这个知识之后,能够对新的动作产生判断,具备感知理解判断的系统,它会有自我成长的特质。

我以今日头条为例,再来解释一下自我成长。首先,今日头条的推荐系统,用户用的越久会越好用,系统感知了越多他的行为它会越理解。另外,越多人用它会越理解,因为不同的人之间有共性的东西,比如同事都是在北京进行IT创业的男士,他对机器学习和风投都感兴趣,越多人用,他们之间能够共享共性的东西就越多,所以越好用。这两个加起来会出现什么情形呢?越多人用越长时间,越好用。

这里我想做个比喻,就像两个新出生的婴儿,他们随着生活阅历的不同,他们的智商情况会差别非常大,哪怕他们的基因物质条件相同,但他们每天收集的信息不一样,最终积累的智慧就不一样。但系统跟个人不同的是,它不是从个人视角积累这些数据,因为一个系统可以通过上亿活跃用户获取海量数据,所以它是全局视角看每个用户的行为。

我具体介绍一下,今日头条在使用机器学习在推荐引擎上的实践。

在过去,我们看报纸、看平媒,是没办法获取用户行为的,也就是说通过阅读报纸,主编或者总编室,他不能得到这个用户数据,他可能只能通过对用户的访谈、调查,一种非在线的方式收集数据,这种信息的感知水平跟移动APP差别是非常大的。

我们再看一下移动APP,我们想象一下,当一个人地铁中使用今日头条的时候,不仅是他在使用今日头条,他在观察阅读数据,其实今日头条后面的系统也在观察他,观察他每一步的滑动,是否很快的滑过了标题还是有所停留,认真的阅读了还是粗略的阅读了,是否参与朋友圈讨论?这些行为都会被系统感知到,系统再做实时调整。

我跟一些媒体人交流也是,他们很希望获得不同用户的反馈,但他们只能通过读者来信,读者来信的数量是多少呢?如果一期杂志或者一期报纸有一千封读者来信就是很高兴的事情了,但一个在线的APP,每秒钟的APP用户反馈都可能是几千、几万的,所以这是不同量级的数据获取。

我们获取到这些数据,怎么使用呢?我们大概分成几类特征:第一类是他的动作特征,他的点击、停留、滑动、顶踩、评论、分享,这些是最主要的数据。其次是他的环境,他是在WiFi还是3G环境,他的GPS是在北京还是在上海,他是离开他的常驻地还是在旅行状态,甚至包括白天还是晚上,包括今天的天气,是否是节假日,都可以作为使用特征。第三是他的社交数据,今日头条一直都是鼓励用户用社交登录,将近有一半用户登录今日头条。比如他用微博登录之后,我们可以获取他的微博身份,这些数据都会成为各种特征被系统所学习到。更重要的是,系统将不仅使用这种单一特征,还会将这些特征组合,看不同特征情况下用户有什么样的兴趣爱好。

所以,我们最早不是基于机器学习的,是基于策略的,我们用人的知识,比如我们认为,北京人肯定喜欢多看北京的本地行为,上海喜欢看上海的,这些知识是人工感知理解判断得到的,并不是系统得到的。

后来我们使用了一些高级特征,少量的组合,可能会包括,他是不是一个当地居民,是不是一个IT的重度用户,他使用的手机价格是多少,可能几十上百种的高级特征会进行组合,来进行推荐。

去年下半年,我们又进行了改进,用了海量的高级特征和精细化特征。精细化特征,他过去对某篇文章或某个明星的点击行为,对他现在阅读有什么影响。

这也带来了服务器非常大的压力,我们认为会有更丰富的特征,并且不仅是一种模型,刚才也提到了,无论是信息模型、神经网络,不仅是一种模型,可能是用模型组合来进行行为的理解和判断。

通过使用推荐引擎,我们其实在诞生之初,这个领域已经是一片红海了,通过推荐引擎的技术,我们在过去两年超越了几个互联网巨头,达到每天有两千万用户在使用今日头条。

并且,每天每个用户使用6-7次,每次6-7分钟,所有用户加起来有7亿分钟的使用时长。如果一个人看的话,相当于从唐朝阅读到清朝的跨度。

这么多用户每天使用的话能产生多少数据呢?我们每天日志函数在100亿的规模,这是去年三个月左右的数据。最后真正被使用的特征也有300多亿。

这幅图是我们内部的一个指标,用来衡量学习的效果。过去一年中,我们通过增加特征的组合,优化模型,大概能提高80、90%的指标提高。简单来说,我们可以认为机器的智商水平有了80、90%的提高。

所以我理解,类似今日头条这种推荐引擎系统,它不仅是一个个人助理角色,因为我们很多时候想到机器学习的时候都会想到人工智能,想到人工智能都会想到机器人,想到机器人都会想到它可能替代一个人,其实它不是替代人,而是更像向整个世界贡献资讯,今日头条每天观察两千万用户行为、一百万条日志,不只是观察一个人,所以更有像上帝一样俯视的视角,爱好的变化,新兴的资讯在不同人之间受欢迎的程度。我其实在做这个产品过程中的感觉是,系统有时有上帝的视角,能够俯视观察所有用户。

所以我觉得,机器学习短期内是看不到有机会跟人类智商相比较的系统的,但是有机会在各个垂直领域,出现可能比平均人类能力更好的判断,比如说在阅读、导航,天气预报就不用说了,因为人根本就无法对天气各种特征做出预测,跟人生活相关的各个领域,比如导航,机器对交通信号、历史人流情况做出判断,比人做出的判断更靠谱,这已然已经出现了。

比如今日头条比你的助理,更能理解你喜欢什么,这也是很可能达到的,或者已然达到的现实。因为机器的智商未必高,但是抵不过它年长和见多识广、不知疲倦。所以我觉得,通过机器连接众多设备,观察众多设备上产生的行为,形成机器智慧之后,它能够大规模抹平信息的鸿沟,减轻人的负担。

以前信息整理收集能力强的人,有更好的信息获取能力,它在信息社会有更多优势。比如说一个对交通经验多的人,能够判断出更好的路线,现在有了基于机器学习系统之后,机器能够指引人更有效的获取信息,更有效的交通出行,所以减轻了人脑的负荷。

机器还知道什么呢?比如说今日头条的系统,在过去一年中,它从这么多用户行为中还了解了什么呢?它知道了哪些人所不知道的知识点呢?比如说,过去一年中哪个事件被人最快的遗忘了?哪个城市的人最喜欢哪个明星,其实这些机器都能知道。想知道这个答案的话,我这里做个广告,20号下午我们会发布一个算数的年度发布会,在那个会上我们会把一些机器学到的东西,以算数的主题发布出来,到时候希望大家参加。

谢谢大家!

    热门主题

      • Recent Articles

      • 2006-02-28 Warren Buffett.How to Minimize Investment Returns

        Refer To:《2006-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 How to Minimize Investment Returns 如何把投资回报降到最低 It’s been an easy matter for Berkshire and other owners of American equities to prosper over the years. Between December 31, 1899 ...
      • 2003-02-21 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2003-02-21 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2002 was $6.1 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2004-02-27 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2004-02-27 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2003 was $13.6 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2005-02-28 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2005-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2004 was $8.3 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2006-02-28 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2006-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2005 was $5.6 billion, which increased the per-share book value of both our Class A and Class B ...