摘要:“今日头条”在短短几个月内,收获数百万活跃用户,很好地利用了开放平台时代的数据优势。近40人的团队里,技术人员占60%。团队创始人张一鸣曾任酷讯技术委员会主席、饭否技术合伙人,并多次创业,虽然外表有些“技术宅”,但其内在是个很有冲劲,具冒险精神的人。
最近,Google宣布将于今年7月1日关闭RSS订阅服务Google Reader。尽管RSS拥趸众多,但其使用量不断下滑已是不争的事实。在RSS服务了10年后,尽管它的内容聚合性更强,但现在个性化阅读逐渐取代了它的位置。在众多个性化阅读应用,试图在拥挤的新闻阅读市场中寻找突破口时,一款叫做“今日头条”的应用已经大跨步地跃居其上,而这离不开其开发团队“字节跳动”的过硬技术。
“今日头条”开发团队,字节跳动科技创始人兼CEO张一鸣
今日头条在App Store中国区免费新闻类应用中排名一直保持着前三,稳居付费新闻类应用中榜首。截止2月底,这款上线仅7个月的应用的用户量超过了1000万,每日活跃用户量约为200万。其实,今日头条并非张一鸣团队开发的第一款应用,他们还推出过内涵段子、搞笑囧图等其他主题的应用。
今日头条区别于其他个性化新闻应用。用户在绑定社交账户后,利用社交数据挖掘技术,今日头条会在5秒内分析出用户的兴趣,为用户推荐内容,用户不再需要订阅内容源。在随后的使用过程中,今日头条会分析用户的阅读习惯,从多个维度完善用户兴趣模型,推荐符合用户兴趣的内容。
这款应用的聪明之处在于它很好地利用了开放平台数据,根据用户在微博上的转发、评论和关系链,为每个用户量身建立兴趣模型。不过这背后对数据挖掘的技术要求比较高。
说起今日头条的由来,张一鸣说:“我们最初想从一类主题、一种信息形式入手,逐一尝试开发出对应应用。以搞笑囧图为例,它的主题是幽默,而信息形式则是图片。随后就有了现在的今日头条。不过,后续我们会把高质量的图片、视频信息整合到今日头条中。今日头条将不仅仅为用户提供新闻,将不拘泥于格式和主题为用户提供更丰富精准的资讯。”。
社交数据为建立用户兴趣模型加速
张一鸣:社交数据是一个参考,为建立用户兴趣模型起到热启动的作用。在今日头条中,我们以分析自己系统的数据挖掘和互联网的信息聚合为主。但社交数据是分析是一个参考,通过它你可以更快发现用户的兴趣。我在饭否的时候,曾研究过大部分跟社交结合的应用,包括热门话题发现,用户影响力排行,事件预测等等社交数据挖掘的应用。我对信息的流动和组织敏感,所以经常会想在信息的运动过程中能得到什么。
今日头条每日处理网页超过100万,并采用独特的全网抓取分析技术,保证内容来源的准确性。然后通过一系列算法,对内容进行提取、去重、分类,遴选出1万篇左右的内容。那么今日头条是如何处理如此大量的数据呢?
张一鸣:我们将研发的成果和开源技术相结合,系统基础领域采用开源的,关键领域使用自己研发的系统。我们每日分析上百万的数据,分析几千万的用户行为,每日api请求数达几亿次。到目前为止运行状态都很平稳。我们之前在自研系统和开源系统上经验比较多,同时结合创业公司低成本高效率的开发模式,所以我们在短短几个月内的增长很快。不会像一些创业公司那样,最初考虑的很全面,从基础系统开始做起,结果不仅产品没能发布,还浪费了大量时间,所以我们在这方面处理就比较有经验,这也是对技术管理的挑战。
今日头条在抓取到的内容后,会利用语义分析、内容分析等对其进行处理。今日头条在分析系统方面做了很大的投入。在进行内容分析时,会用到许多模型。在业界有很多方法,无论是在广告系统中,还是在搜索领域。处理分析数据的方法是否是独创的,这并不重要,重要的是,你要理解这些方法,与产品结合。
已开始调研海外市场
张一鸣:我们也会登陆海外市场,比如通过Twitter、Facebook、Linkedin的社交数据的产品。但是,我们要确保在一个市场中稳坐头把交椅,我们不希望心猿意马,成为两个市场中的第二。移动互联网时代,与以往不同,中国的公司的现状不再是落后于美国两、三年,我们经常可以看到一些公司的产品与海外的产品站在同一起跑线上,比如微信、UC。这是一个非常好的现象。我们也会进入海外市场,虽然我现在还无法给出具体时间,但是我们一直都在计划着。同时,我们在积极招聘国内擅长算法和模型的工程师、架构师的同时,也在寻求一些海外的人才。
我们从去年就开始考虑海外计划。通过前期调研结果来看,是可行的。我们也在研究在哪里部署机房,是自己建立还是使用Cloud Server。而且,将我们的系统迁移到云端是否方便,如何让一套系统两地部署,以及产品设计是否需要改动,这些问题都在调研中。
对于未来产品的规划,张一鸣表示:“我们产品规划比较简单,我们的主要目的就是为用户提供准确且有价值的信息。产品功能方面,我们未来会让它的交互操作更容易,响应速度更快,并提高阅读体验”。
典型的技术型团队
今日头条团队目前将近40人,其中技术人员有20多人,占总人数的60%。技术团队分成应用端(iOS和Android)、运维、存储与网络、Server API,以及数据组,数据组又分成算法、爬虫推荐和搜索引擎。由于今日头条对算法和数据分析处理的要求较多,所以这是一支以数据算法为核心的团队。但在张一鸣看来,技术团队仍需要扩充,他目前还在积极招聘研究员、构架师、高级经理、高级工程师。