2015-01-17 张一鸣-机器学习能带来更有趣的世界吗

2015-01-17 张一鸣-机器学习能带来更有趣的世界吗

大家好!很高兴能跟大家再次分享今日头条在机器学习上的一些实践。

最早,我们在创业之初的时候,在招机器学习的工程师,很多包括猎头都问我们,你们不是做媒体的嘛,为什么要招机器学习的工程师?你们不是做一个APP的嘛,为什么需要这么多人?我当时很想告诉他们,机器学习能够给资讯的阅读、信息的获取,带来很多很大的价值,发生很多有趣的事情。

我现在可以跟大家分享一下,在我们过去使用机器学习,在信息获取上,给这个产品带来的价值。

首先,我们回顾一下,其实刚刚前面几位演讲者都回顾了很多机器学习使用的场景和技术背景,我下面也从我们角度给大家分享一下。大概在2011年底、2012年初,当时我强烈的感受到,移动互联网的出现使物理世界在网络世界有了更多数字投影。比如说,微博的出现,让很多公共机构和知名名人,开始有了网络的ID。非常多的,无论是照片、文字、UGC内容,还用用户轨迹、LBS位置,在网络上有了投影。

同时,云端开始能够处理海量数据,在更早之前我们说日志分析,只是统计一下各种总数指标,但是到2010年之后,越来越多海量云存储、云计算诞生了,同时在云端出现了强烈的技术需求,具备了技术条件我认为还不够,必须要有强烈的业务需求才能带来技术在产品上的应用。

当然,我看前几位演讲者都讲到过,手机上有越来越多的传感器,这是第一,第二,越来越多的智能硬件其实是手机的外设,手机是人的外设,越来越多的智能硬件是手机的外设,手机上的传感器也是手机的IO能力,当然这可能不止手机,还有智能手表。手机又本身具备本地的云算处理能力、联网能力,所以它就成为了物理世界信息投影到网络世界的一个通道。当然还有别的设备,无论是Google眼镜也好,汽车上装的MBI设备也好,MBI把汽车情况投影到数字世界,特斯拉、宝马也是。

所以,有一个现象是,过去是依靠人来总结知识。比如说,在不同的历史阶段都有一些大家,把各领域知识汇聚成一本经典著作。现在我发现,可能通过书籍来汇聚知识,不是最有效或者容量最大的方式了,而是通过系统学习用户行为存储智慧。比如说,我们希望查过去几年春运的变化情况,我们其实可以在百度指数上查到,百度指数上可以查到北京到深圳、北京到南京不同的查询词,通过这些记录,我们可能比各种年鉴、书籍,能够更详细的得到历年春运的交通情况,这个知识的沉淀,并不是通过有一位学者去收集归纳分析过去几年发生的情况写成书,而是通过用户行为。我发现通过用户行为从广大用户中吸取知识、存储智慧开始出现,我觉得这可能是未来存储智慧的主要方式。

首先是感知,第二是理解,无论是查询也好、点击也好、收藏也好,通过这些了解用户的意图。系统感知理解了这个知识之后,能够对新的动作产生判断,具备感知理解判断的系统,它会有自我成长的特质。

我以今日头条为例,再来解释一下自我成长。首先,今日头条的推荐系统,用户用的越久会越好用,系统感知了越多他的行为它会越理解。另外,越多人用它会越理解,因为不同的人之间有共性的东西,比如同事都是在北京进行IT创业的男士,他对机器学习和风投都感兴趣,越多人用,他们之间能够共享共性的东西就越多,所以越好用。这两个加起来会出现什么情形呢?越多人用越长时间,越好用。

这里我想做个比喻,就像两个新出生的婴儿,他们随着生活阅历的不同,他们的智商情况会差别非常大,哪怕他们的基因物质条件相同,但他们每天收集的信息不一样,最终积累的智慧就不一样。但系统跟个人不同的是,它不是从个人视角积累这些数据,因为一个系统可以通过上亿活跃用户获取海量数据,所以它是全局视角看每个用户的行为。

我具体介绍一下,今日头条在使用机器学习在推荐引擎上的实践。

在过去,我们看报纸、看平媒,是没办法获取用户行为的,也就是说通过阅读报纸,主编或者总编室,他不能得到这个用户数据,他可能只能通过对用户的访谈、调查,一种非在线的方式收集数据,这种信息的感知水平跟移动APP差别是非常大的。

我们再看一下移动APP,我们想象一下,当一个人地铁中使用今日头条的时候,不仅是他在使用今日头条,他在观察阅读数据,其实今日头条后面的系统也在观察他,观察他每一步的滑动,是否很快的滑过了标题还是有所停留,认真的阅读了还是粗略的阅读了,是否参与朋友圈讨论?这些行为都会被系统感知到,系统再做实时调整。

我跟一些媒体人交流也是,他们很希望获得不同用户的反馈,但他们只能通过读者来信,读者来信的数量是多少呢?如果一期杂志或者一期报纸有一千封读者来信就是很高兴的事情了,但一个在线的APP,每秒钟的APP用户反馈都可能是几千、几万的,所以这是不同量级的数据获取。

我们获取到这些数据,怎么使用呢?我们大概分成几类特征:第一类是他的动作特征,他的点击、停留、滑动、顶踩、评论、分享,这些是最主要的数据。其次是他的环境,他是在WiFi还是3G环境,他的GPS是在北京还是在上海,他是离开他的常驻地还是在旅行状态,甚至包括白天还是晚上,包括今天的天气,是否是节假日,都可以作为使用特征。第三是他的社交数据,今日头条一直都是鼓励用户用社交登录,将近有一半用户登录今日头条。比如他用微博登录之后,我们可以获取他的微博身份,这些数据都会成为各种特征被系统所学习到。更重要的是,系统将不仅使用这种单一特征,还会将这些特征组合,看不同特征情况下用户有什么样的兴趣爱好。

所以,我们最早不是基于机器学习的,是基于策略的,我们用人的知识,比如我们认为,北京人肯定喜欢多看北京的本地行为,上海喜欢看上海的,这些知识是人工感知理解判断得到的,并不是系统得到的。

后来我们使用了一些高级特征,少量的组合,可能会包括,他是不是一个当地居民,是不是一个IT的重度用户,他使用的手机价格是多少,可能几十上百种的高级特征会进行组合,来进行推荐。

去年下半年,我们又进行了改进,用了海量的高级特征和精细化特征。精细化特征,他过去对某篇文章或某个明星的点击行为,对他现在阅读有什么影响。

这也带来了服务器非常大的压力,我们认为会有更丰富的特征,并且不仅是一种模型,刚才也提到了,无论是信息模型、神经网络,不仅是一种模型,可能是用模型组合来进行行为的理解和判断。

通过使用推荐引擎,我们其实在诞生之初,这个领域已经是一片红海了,通过推荐引擎的技术,我们在过去两年超越了几个互联网巨头,达到每天有两千万用户在使用今日头条。

并且,每天每个用户使用6-7次,每次6-7分钟,所有用户加起来有7亿分钟的使用时长。如果一个人看的话,相当于从唐朝阅读到清朝的跨度。

这么多用户每天使用的话能产生多少数据呢?我们每天日志函数在100亿的规模,这是去年三个月左右的数据。最后真正被使用的特征也有300多亿。

这幅图是我们内部的一个指标,用来衡量学习的效果。过去一年中,我们通过增加特征的组合,优化模型,大概能提高80、90%的指标提高。简单来说,我们可以认为机器的智商水平有了80、90%的提高。

所以我理解,类似今日头条这种推荐引擎系统,它不仅是一个个人助理角色,因为我们很多时候想到机器学习的时候都会想到人工智能,想到人工智能都会想到机器人,想到机器人都会想到它可能替代一个人,其实它不是替代人,而是更像向整个世界贡献资讯,今日头条每天观察两千万用户行为、一百万条日志,不只是观察一个人,所以更有像上帝一样俯视的视角,爱好的变化,新兴的资讯在不同人之间受欢迎的程度。我其实在做这个产品过程中的感觉是,系统有时有上帝的视角,能够俯视观察所有用户。

所以我觉得,机器学习短期内是看不到有机会跟人类智商相比较的系统的,但是有机会在各个垂直领域,出现可能比平均人类能力更好的判断,比如说在阅读、导航,天气预报就不用说了,因为人根本就无法对天气各种特征做出预测,跟人生活相关的各个领域,比如导航,机器对交通信号、历史人流情况做出判断,比人做出的判断更靠谱,这已然已经出现了。

比如今日头条比你的助理,更能理解你喜欢什么,这也是很可能达到的,或者已然达到的现实。因为机器的智商未必高,但是抵不过它年长和见多识广、不知疲倦。所以我觉得,通过机器连接众多设备,观察众多设备上产生的行为,形成机器智慧之后,它能够大规模抹平信息的鸿沟,减轻人的负担。

以前信息整理收集能力强的人,有更好的信息获取能力,它在信息社会有更多优势。比如说一个对交通经验多的人,能够判断出更好的路线,现在有了基于机器学习系统之后,机器能够指引人更有效的获取信息,更有效的交通出行,所以减轻了人脑的负荷。

机器还知道什么呢?比如说今日头条的系统,在过去一年中,它从这么多用户行为中还了解了什么呢?它知道了哪些人所不知道的知识点呢?比如说,过去一年中哪个事件被人最快的遗忘了?哪个城市的人最喜欢哪个明星,其实这些机器都能知道。想知道这个答案的话,我这里做个广告,20号下午我们会发布一个算数的年度发布会,在那个会上我们会把一些机器学到的东西,以算数的主题发布出来,到时候希望大家参加。

谢谢大家!

    Article Comments Update


      热门标签


        • Related Articles

        • 2017-12-04 张一鸣-乌镇采访

          CE:同样是在乌镇,去年最受关注的还有TMD(头条、美团点评和滴滴)概念,这个现象事实上对互联网格局产生了怎样的影响? 张一鸣:大家比较关注存量和静态,不够动态的去看世界。不论是BAT,还是TMD,未来还会有很大变化。哪个产品、哪个公司有生命力,就能继续往前走。现在围绕物联网、AI、生物基因工程甚至航天有很多创新,我更关心未来。 CE:头条做了很多新业务,你拓展边界的逻辑是什么?有人评价,你跟王兴的思考很相似。 ...
        • 2016-08 李志刚对话张一鸣

          采访视频:《李志刚对话张一鸣》。 我个人很喜欢这类早期的访谈,这种访谈会更真实,更没有掩饰。 在这次专访里,张一鸣谈到了他如何把今日头条做成百亿美元公司、如何与巨头竞争、如何看待全球各地山寨今日头条的现象。以下为全文: Q:这是我们第四次聊天,三年前的寒冷冬天我们聊了一个晚上,这三年你变化很大,你觉得你做了哪些关键决策,让今日头条从估值1亿美元到100亿美元? ...
        • 2016-08-12 张一鸣-Stay hungry, Stay young

          近日,张一鸣在“2016今日头条Bootcamp”上对公司研发&产品部门应届毕业生发表了题为《Stay hungry, Stay young》的演讲,其中他分享了: 毕业多年后大家是怎么拉开差距的? 为何年轻人容易在毕业后很快就遇到了成长的天花板? 我是如何在毕业第2年就成了管理四五十人团队的主管? 这10年我遇到的优秀年轻人都有哪些特质? 张一鸣演讲整理: 一、 为何毕业多年后,原本水平差不多的同学都拉开了差距? ...
        • 2015-06-15 张一鸣的“上帝视角”

          摘自《张一鸣的“上帝视角”》,卧虫 发布于 2015年6月15日。 2015年5月最后一个周末,广州,阅读工具“今日头条”的创始人张一鸣在南方报业集团做了一次内部演讲。他对着台下那些传统媒体的看门人说:“我们跟一些媒体不一样,有的媒体是有格调的,他希望他们有格调的内容。我们希望包罗万象,因为我们会给不同的人看不同调性的内容。” ...
        • 2015-06-18 张一鸣-人机进化论

          像机器一样 向外界讲述和解释自己,始终是件让张一鸣先生挠头的差事。请别因此得出错误的印象,认为他是寡言少语之人。他太理性也太可靠,总是试图说服人,而非感染人。他说话时语调和语速几乎没有情绪起伏,高兴和沮丧都不轻易示人。一些跟随他多年的下属和同事甚至认为,这位32岁的年轻CEO多少有些“缺乏情趣”。 “曲折的故事只是读者看起来精彩而已,你要快速发展,不能太曲折。”张一鸣说。他一手缔造了拥有2.5亿激活用户的移动资讯平台“今日头条”。 ...