2016-11-17 张一鸣-从报纸夹缝到头条要这样做

2016-11-17 张一鸣-从报纸夹缝到头条要这样做

一、最早的人工智能+信息平台

大家好,刚刚放的片子是我们今日头条一个公益项目“头条寻人”的介绍。给大家看这个片子,是因为头条寻人项目,是我们做精准信息分发的一个特别典型的例子。

大家知道,今日头条是一个信息分发平台,我们用个性化推荐引擎,把人和信息更高效的连接起来。具体到寻人,把走失者、寻找者和知情者,这些原本孤立的点都被今日头条连接起来,这是一个典型的连接信息的应用场景。

今天在场的各位朋友,肯定对十几年前报纸上的豆腐块《寻人启事》有记忆。那时候,《寻人启事》只能刊登在报纸的夹缝或者不起眼的角落里。为什么呢?因为头版是非常稀缺、非常昂贵的,要留给重大的社会议题。所以,要让寻人启事上头条的办法只有一个,就是把头版的成本降下来。

把头版的成本降下来,让每个用户拥有属于他们自己的头版,在传统媒体的时代,是无法实现的,抛开昂贵和稀缺的渠道不说,也没有那么多有经验的媒体编辑。今日头条最终借助于人工智能技术,真正实现了资讯分发的千人千面。让每一个用户,每时每刻,都能看到属于他们自己的资讯头版。

这是今日头条能把《寻人启事》从报纸的夹缝里送上头条的秘密所在;也是今日头条在4年内成长为一款全民资讯阅读平台的秘密所在。

不谦虚的说,今日头条是人工智能的先行者:作为一款个性化信息推荐引擎产品,我们当然离不开数据挖掘、神经网络、自然语言理解、机器学习这些人工智能技术。可以说,我们是国内最早一批把人工智能结合到移动应用场景上的产品。鉴于头条的累积激活用户,已经达到6亿,今日头条可以说是目前人工智能在实际应用层面,应用最广泛的一款科技产品。

总有人跟我说,一鸣,头条这个媒体不错,很懂我。我都很无奈。我觉得,说头条是一家媒体,跟说AlphaGo是一款“围棋教学软件”一样。AlphaGo,是人工智能技术在围棋领域的应用;同样,今日头条,是人工智能在信息分发领域的应用。

四年过去了,头条上的内容越来越丰富,图片、视频、直播甚至问答,包括寻人。在今年,我们还成立了专注于人工智能的头条实验室,很多人也开始慢慢理解头条是一家技术公司。从数据上来看,截至2016年10月底,除去累计6亿的激活用户,我们的日活已经超过6600万,月活1.4亿,单用户日均使用时长则超过76分钟,按照第三方数据公司QuestMobile的统计,我们在人均时长上仅次于微信。

在今天这个人工智能的时代,我觉得自己还是可以很自信地说一句,我们是把算法、工程、产品、运营这几个方面在应用层面结合得最好的一家公司。我们理解用户需求,懂算法、工程,理解产品并且还能做细致的运营。

二、人工智能不止个性化推荐

一提到今日头条的人工智能,大家就会想到个性化推荐,但实际上人工智能在头条的应用远不止这些。今日头条是内容的创作以及分发平台,至少有4个环节是跟人工智能的算法非常非常相关。就是创作、分发、讨论,还有一部分可能读者不太会直接看到,就是低劣内容的筛选过滤。

1、创作:人工智能直接介入创作

可能很多今日头条的用户不知道,今年奥运会的时候他们看到的新闻,或许是一个名叫Xiaomingbot的AI机器人来完成的。

在整个奥运会期间,Xiaomingbot写了四百多篇新闻稿,一条稿件的写作时间平均下来大概不到两秒钟。最后AI写的稿子大概有一百多万的阅读,有的阅读率甚至略高于记者的稿件。

有媒体对比了今日头条和华盛顿邮报的写稿机器人,发现头条的机器人不但信息量更丰富,能写配图长文,而且文字也更生动有趣。

这个AI机器人是我们头条实验室和北大计算机所合作完成的项目,也是国内第一个综合运用了自然语言处理、视觉图形处理和机器学习技术的写稿机器人。此前国外开发的写稿机器人,基本都是写一些简单的资讯,做一个模板,填上数据结果,Xiaomingbot则可以通过获取网上对相关赛事的文字和讨论,总结归纳生成出一篇较长的赛事资讯,并且还能自己选图。

其实头条一直在尝试类似写稿机器人这样的项目,我们希望用人工智能来帮助创作者创作更优质的内容。比如,头条号作者写文章的时候,选择一个合适的封面图常常是个难题,我们头条实验室现在做的工作之一就是用人工智能的算法去帮助头条号作者选出更好的图,或者取一个合适的标题。

2、分发:人工智能的数据进化

去年我去波士顿的时候见到一个哈佛的学生,他问我,为什么自己在哈佛会收到长沙老家的新闻推送?我说你是不是在过去两年春节回家了?他说,是。我告诉他,我们是用了过去两年的日志。机器识别出你在波士顿,但是春节回过长沙,所以会给你推荐长沙的新闻,但不是长沙所有的新闻给他,而是离开长沙的人通常会感兴趣的新闻才会推给他。

这个例子其实包含了人工智能在今日头条个性化推荐里的三个关键之处:个性化、泛化和数据积累。

首先是个性化,只有用的越久才越好用。这个哈佛学生用了两年,机器对他的了解才更深入,才能知道他是春节回的长沙。其次是泛化,用的人越多效果越好,把一个人的推荐泛化到其他有共同特质的人身上。假如都是长沙本地人用今日头条,那机器不可能知道一个离开长沙的人会喜好什么样的信息,只有用户量达到一定程度,才可能实现个性化推荐。

到最后一步,就是越多的人用越长的时间,人工智能的训练样本就会越大,通过数据积累最终实现数据进化,完成精准推送,告诉在哈佛读书的长沙人,这条关于人才的信息你不该错过。

现在今日头条可以说正在数据进化的路上,我们拥有800名工程师, 每天150亿条训练样本量,20000台服务器,每日处理数据6.3PB,用户请求60亿次。这是我们实现精准推送的基础。

3、讨论:人工智能提升互动

说到人工智能在互动中的应用,我可以给大家介绍一个头条的新项目,叫头条问答。

传统意义上的问答,基本都是社交模式,存在很多的问题,在我看来这恰恰是人工智能和算法可以解决的。

比如,头条上是算法来帮用户找到适合回答问题的人,在同一个问题下,机器会知道怎么样排序能够对不同的用户更友好更合适。算法就可以把类似“长沙人在哈佛读书会不会吃不惯”这样的问题推送到刚刚提到的那位学生的手机上。另外,算法现在还在尝试,在热门事件里自动生成问题,并且插图,对相似问题去重。

我们头条实验室负责人李磊博士对这方面颇有研究,今年召开的ACL 2016就收录了他关于问答的一篇论文,主要研究的问题是要解决知识类问答。

知识表示和推理是人工智能领域的研究难题,也是最核心的问题,它的研究一般会涉及到深度学习、概率图模型、矩阵分解和稀疏方法、核方法、决策树等。这项研究成果也正在头条问答项目中应用,我们希望对于一些简单的问题和事实类的问题可以通过自动回答的方式去解决,这样就可以节省专家人力。

4、低劣内容的智能过滤

最后一个,低劣内容的过滤。

刚刚说了,我们做的事情是希望增加信息的吞吐量和分发效率,其实增大信息吞吐量最大的瓶颈就是怎么能更快的过滤筛出低劣内容。在此前算法不成熟的情况下,我们有一个小组会和机器一起来进行低质文章的初筛,也就是机器先圈出一个范围,再由人工来完成细致的筛选,今日头条每天能通过筛选呈现的文章超过15万篇。

一般来说,一个人一天能够处理的文章数量大概是1000篇,相比之下,机器一秒钟就能处理100篇文章。也就是说,即使只是这十五万篇呈现出来的文章,全部交由人工来筛的话,一个人需要工作一百五十天才能看完,机器则只需要25分钟。

可能很多人会觉得,人工审核会比较准,但其实我们内部做过测试,把文章打上不同的标签,让不同的人来判断,这时候就发现,人和人之间的判断差别是很大的,准确率大概是75%,算法的准确率则有87%。

更重要的是,相比人工,算法的边际成本可以低到忽略不计,并且算法还能不断学习。我们后来就更新了初筛的算法,现在今日头条上低质文章的初筛已经不再依赖人工,全部由机器完成,当然,初筛之后,我们还有人工抽检等手段去配合机器,让他们变得更聪明。

经常看到有人担心机器人会抢走人类的饭碗,我并不这样觉得。机器解放了我们的生产力,从汽车的发明到电脑的出现,是机器让人们从低质、重复的工作中解脱出来,这样人们有机会去做创造性的工作。信息行业也是如此,在人工智能的浪潮下,我们解放了网络编辑,让创作者集中精力更好的创作,这才带来了真正的内容创业的繁荣。

三、今日头条希望成为信息分发的基础设施

上面讲了很多头条关于人工智能的探索和尝试,大家不难发现,人工智能实际上早已经嵌入了头条的产品基因。

对于今日头条来说,人工智能的意义最终是要落到应用层面的,是为了让信息在碎片化的场景中实现最高效的流动。

我相信技术没有边界,最近可能有人关注到,我们投资了印度的一家和我们类似的公司,Dailyhunt,是当地最大的信息分发平台。其实,2015年6月今日头条就已经启动国际化,通过Build&Buy的方式在海外扩张,现在在日本、印度、东南亚、北美、巴西,头条都有一些布局。

在未来,在人工智能浪潮的推动下,我们希望今日头条能成为全球信息分发的基础设施。

谢谢大家。

    热门主题

      • Recent Articles

      • 2006-02-28 Warren Buffett.How to Minimize Investment Returns

        Refer To:《2006-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 How to Minimize Investment Returns 如何把投资回报降到最低 It’s been an easy matter for Berkshire and other owners of American equities to prosper over the years. Between December 31, 1899 ...
      • 2003-02-21 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2003-02-21 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2002 was $6.1 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2004-02-27 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2004-02-27 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2003 was $13.6 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2005-02-28 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2005-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2004 was $8.3 billion, which increased the per-share book value of both our Class A and Class B ...
      • 2006-02-28 Warren Buffett's Letters to Berkshire Shareholders

        Refer To:《2006-02-28 Warren Buffett's Letters to Berkshire Shareholders》。 To the Shareholders of Berkshire Hathaway Inc.: Our gain in net worth during 2005 was $5.6 billion, which increased the per-share book value of both our Class A and Class B ...