AI在内容分发上的绊脚石
自从互联网商业化发展以来,不论是新闻客户端、视频网站或是电商平台……所有的平台,都是把自己默认为一个优秀的饲养员,它按照自己的想法,把内容(饲料)Push(喂)给用户。
这些饲养员都是受过训练的专业人士,行话叫做---由网站编辑为用户设置议程,按照大多数用户的口味挑选内容。
后来编辑实在忙不过来,采用机器帮忙---最简单的机器方式则是“热门推荐”,比如按照点击量或其它数据来做排序。
饲养员模式最大的问题是不知道食客胃口如何,这会导致两个显著的后果:一是食客不满意,用户个性化需求不能得到满足;二是自身资源浪费,大量长尾资源长期得不到曝光,增加沉没成本。
有人发现了机器的好处。机器可以是根据用户特征来推荐内容。正如一个高明的厨子可以根据每一个食客的口味提供饭菜,如果机器足够聪明,在一定程度上可以解决所有用户的个性化需求。这岂不是内容产业的C2M?
准确的说,这是内容分发的C2M,它以单个用户为对象进行沟通,跳出了大众传播/分众传播窠臼,是不是足以革了所有的搜索引擎和门户网站的命?
这种智能化的内容C2M有深刻的时代背景。今天,你已经站在时代边缘,眼睁睁的看着AI技术点燃了IOT的引线,接下来你将发现自己无可拒绝的进入下一个信息核爆的时代:信息终端爆炸、信息规模爆炸、信息平台爆炸……
在信息高速公路上,你开过的车,你走过的路,全都变了规则,你所熟悉的一切的基于饲养员模式的知识框架都面临颠覆。
在这个时代,饲养员模式已经失灵了,聪明的机器将成为最大的变量。
第一个出现的场景是人类生产内容,机器分发内容。
下一个出现的场景是机器生产内容,机器分发内容。
内容产业面临C2M革命,行不行?
“当然不行,机器很蠢。”如果你这样想,那么很遗憾,你注定是看不到明天的太阳了。
“当然行。”如果你这么想,那么祝贺你掉进坑里了。
真实的情况,你可能意想不到。
一、内容C2M之路本质是走向个体化沟通
作为一个独立的研究方向,推荐系统的源头可以追溯到90年代初的协同过滤算法,中期的代表则是传统的机器学习算法,比如Netflix大赛所推动的隐语义模型,现在则是更加复杂的深度学习模型。
近些年,深度学习突飞猛进,使得机器推荐变成了整个互联网的太阳。在新技术的推动下,个性化沟通也变得更加可行,而且越来越接近单用户沟通。
(一)协同过滤蹒跚起步
按照百科词条解释,协同过滤是利用用户群体的喜好来为你推荐感兴趣的信息,这些用户要么兴趣相投、要么具有共同经验,然后网站结合你的反馈(如评分),进行过滤分析,进而帮助别人筛选信息。
当然,用户喜好不一定局限于特别感兴趣的信息,特别不感兴趣信息的纪录也相当重要。协同过滤表现出了出色的效果,开始在互联网行业称王称霸。
起先,协同过滤应用于邮件过滤。
1992年,施乐公司的科学家提出了Tapestry系统。这是最早应用协同过滤系统的设计,主要是解决Xerox公司在Palo Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类,于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。
接着,协同过滤思路开始应用于内容推荐。
1994年,美国Minnesota的GroupLens项目组创办了一个新闻筛选系统,这个系统可以帮助新闻的阅听者过滤其感兴趣的新闻内容,阅听者看过内容后给一个评比的分数,系统会将分数记录起来以备未来参考之用,假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听,若阅听者不愿揭露自己的身分也可以匿名进行评分。作为最老牌的内容推荐研究团队,GroupLens于1997年创建了电影推荐系统MovieLens,还有性质相近的音乐推荐系统Ringo,以及影音推荐系统Video Recommender等等。
后来,出现了另一个里程碑——电子商务推荐系统。
1998年,亚马逊的林登和他的同事申请的基于物品的协同过滤(item-to-item)技术专利,是亚马逊早期使用的经典算法,一度引爆流行。
协同过滤算不算人工智能?从技术的角度来看,它也属于AI范畴。但必须指出的是协同过滤算法比较弱智,无论是基于用户的协同过滤,还是基于物品的协同过滤,推荐效果总是差强人意。
怎样通过一个成体系的方法论来引导推荐系统的不断优化?如何才能把复杂的现实因素糅合到推荐结果中?攻城狮们一度非常非常头大,重赏之下必有勇夫,后来,终于有人发现了更加灵活的思路。
(二)传统机器学习开始加速
2006年,Netflix宣布举办Netflix Prize。Netflix是一家老牌的在线影片租赁网站,举办大赛的目的旨在解决电影评分预测问题的机器学习和数据挖掘问题。主办方为此下了血本,宣称对于那些能够将Netflix的推荐系统Cinematch的准确率提升10%的个人或团队,奖励100万美元!
Netflix在自家blog上披露了许多庞大的数据,举例如下:
我们有几十亿的用户评分数据,并且以每天几百万的规模在增长。
我们的系统每天产生几百万的播放点击,并且包含很多特征,例如:播放时长、播放时间点和设备类型。
我们的用户每天将几百万部视频添加到他们的播放列表。
显然,在这些海量数据面前,我们已经不能靠由纯人工或者小型系统建立起来的分类标准对整个平台用户喜好进行标准化。
比赛开始一年后,Korbell的团队以8.43%的提升赢得了第一个阶段奖。他们付出了超过2000个小时的努力,融合了107种算法。其中两种最有效的算法:矩阵分解(通常被叫做SVD,奇异值分解)和局限型玻尔兹曼机(RBM)。
矩阵分解作为协同过滤的补充,核心是将一个非常稀疏的用户评分矩阵R分解为两个矩阵:User特性的矩阵P和Item特性的矩阵Q,并用已知的数据构建这些向量,使用它们来预测未知的项。该算法在有效提高计算精度的同时,还能够加入各种建模元素,使更多元化的信息融合进来,更好地利用大量数据。
然而矩阵分解也有不足。不足之处在于,矩阵分解和协同过滤算法一样,都属于监督学习范畴,粗糙且简单,适用于小型系统。摆在网络巨头们面前的问题是,如果需要建立一个大型推荐系统,协同过滤和矩阵分解则会花费较长的时间。怎么办?
于是,一些攻城狮将眼光转移到无监督学习中。无监督学习中的聚类算法的本质是识别用户组,并对这个组内的用户推荐相同的内容。当我们拥有足够的数据,最好使用聚类作为第一步,来缩减协同过滤算法中相关邻居的选择范围。
隐语义模型运用了聚类分析方法,其一大优势是既可以做评分预测,又可以同时对文本内容建模,使得通过内容来进行推荐的效果得到较大提升。
传统的分析方式在对用户打标签,并根据标签映射到结果的两个步骤中准确度不高。比如用户填写的年龄不一定真实,或者并非所有青少年都喜欢漫画。而隐语义模型的核心,是超越这些表层语义标签的维度,通过机器学习技术,挖掘用户行为中更深层的潜在关联,使得推荐精度更高。
Netflix Prize百万美元武林大赛号令之下,天下英才频出。2009年达到了一个高峰,成为推荐系统领域最标致性的事件,这次比赛吸引了众多专业人士投身于推荐系统领域的研究,也让这项技术从专业圈子渗透到了商业领域,引发了热烈的讨论并逐渐勾起了主流网站的垂涎,基于内容的推荐、基于知识的推荐、混合推荐、基于信任网络的推荐等等走上了快速发展的通道。
这些推荐引擎与协同过滤不同,例如基于内容的推荐是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。内容过滤主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。
百万美元花得值不值?据2016年的Netflix用户数据:注册会员6500万人,每天观看视频的总时长1亿个小时。Netflix说,每年靠这套系统能够节省10亿美元。
(三)深度学习带来“无人驾驶”
近些年来,用户的大痛点出现。智能手机的普及,让庞大的信息量和狭小的阅读屏幕成为一对难以化解的矛盾,用户阅读场景不再是固守于电脑屏幕,而是向移动化碎片化转变,搜索引擎失灵了,人工推荐忙不过来,机器推荐也不够用了,这种转变对大内容平台简直是生死考验。能满足需求则生,不满足则死。
面对这一问题,YouTube和Facebook提出了新解决思路:运用深度学习,制造聪明的机器。近十年来,深度学习已经取得了巨大的飞跃,对于解决大数据量更有优势。
如果说人工内容推荐如同司机开车,那么深度学习所带来的内容推荐,则如无人驾驶汽车。在这种技术是利用用户数据来“感知”用户喜好,其推荐系统基本可以分为数据层、触发层、融合过滤层和排序层,当数据层生成和存储的数据进入候选层后,也就触发了核心的推荐任务。
以YouTube为例,其最新公开的推荐系统算法由两个神经网络组成,一个用于候选生成,一个用于排序。首先,以用户的浏览历史为输入,候选生成网络可以显著减小可推荐的视频数量,从庞大的库中选出一组最相关的视频。
这样生成的候选视频与用户的相关性最高,再进一步对用户评分进行预测。这个网络的目标,只是通过协同过滤提供更广泛的个性化。排序网络的任务则是仔细分析候选内容,精选出少量最优选择。具体操作为根据视频描述数据和用户行为信息,使用设计好的目标函数为每个视频打分,将得分最高的视频呈献给用户。
在这种模式下,机器全然接管了平台。在深度学习的持续训练下,机器越来越聪明,与人打交道的智商会逐渐提升,在某种意义上也逐渐承担起看门狗的责任。
二、内容产业是否即将被C2M颠覆
世界之大无奇不有,美国得克萨斯州科珀斯—克里斯蒂市一家银行的一台自动取款机(ATM)竟然在11日吐出了字条,上面写着“救我”,这条新闻很快传遍中文网络,成为许多网站的头条。
你需要从N个网站上看到一模一样的文章吗?
这些冗余的信息消耗了你的精力和流量,就像你打开任何一个电视频道,都能看到许多方便面广告一样,让人很难从大量的信息中快速找到自己想要的内容。
如何解决用户信息冗余的尴尬?
过去曾经有许多不成功的技术方案,个人门户昙花一现,RSS订阅不成气候,跨站跟踪上不了台面。能引领未来者,只有C2M。
C2M模式可以像今日头条这样应用于全网,也可以像Facebook那般基于巨头的平台。其核心就在于基于用户行为习惯、特征和诉求,对海量的信息进行提取、分拣然后传递给用户,这是克服痛点的秘密。
但质疑的声音也不少。比如有观点认为,协同过滤这样的推荐容易让用户形成信息茧房、无法识别阅读场景、即时性差、耗时长等缺点,而今日头条这样的模式也常常被诟病,还要应付难以捕捉的用户兴趣、用户数据的隐私和管理等多项挑战。
支持和质疑各执一端,孰是孰非?未来虽有两大机遇,但是目前要跨越三座大山。
1.支持的理由如下:
①千人千面,众口可调。
个性化的内容推荐机制能够根据用户的喜好为其推荐信息。通过各种算法,通过分析用户的历史行为,对比相关用户和相关物品猜测用户可能喜欢的内容,列出候选集并进行验证,用户可以得到较为准确的内容,使信息分发做到千人千面,实现内容与用户的精准连接,而不是传统意义上的千人一面般的投放。
②海里捞针,提高效率
个性化推荐省去了用户在海量信息中进行提取和搜寻的环节。用户无需在海量信息中摸针,在一定程度上为用户去除了部分无用信息,缩小了用户信息搜索的范围,提高了用户的阅读效率。
③投其所好,增强粘性
不断为用户推荐适合他的内容能够增加用户粘性。个性化推荐技术通过算法进行用户感兴趣的内容的精准推荐,帮助用户快捷发现感兴趣的内容,当你看完一个内容后,会立马给你推荐相关的东西,可以增加用户粘性,提高用户体验。
④挖掘长尾,打破两极
个性化推荐能够通过相关算法帮助用户挖掘长尾内容,避免两极分化的马太效应。当A用户喜欢比较冷门的长尾内容,而B用户又有跟A用户有相同或相似的兴趣和行为习惯时,系统就能够把A用户喜欢的冷门内容推荐给B用户,这样就使冷门内容得到更多的曝光,帮助用户发现更多的长尾内容,避免内容生产生态两极分化。
⑤双向交流,深度优化
基于用户进行个性化推荐是对用户进行深度分析和交流的结果,提升了用户的交互式体验。传统的人工推荐是遍地撒网地推荐,没有对用户进行细致地划分和筛选,机器推荐以用户特点和习惯为基础进行推荐,用户能够得到双向的交流和沟通,用户的行为也能对下一步的推荐产生影响,在一定程度上得到了反馈,提升了用户的交互式体验。
⑥分门别类,运营细化
个性化推荐也有利于平台对内容进行分类,从而利于平台精细化管理和运营。信息时使得平台不断涌现,各种形式的内容越来越丰富,用户手机端展示的区域有限,个性化推荐能够使商家更好地针对不同客户对内容进行分类,有利于精细化运营。
2.质疑的观点主要有:
①画地为牢,思维设限
个性化新闻体验容易让思想裹足不前。个性化推荐的结果是基于用户的历史数据和历史行为,基于相似用户或者相似物品进行的推荐,在一定程度上将用户感兴趣的内容固定在一个特定的闭环里,在为用户筛选信息的同时也为用户隔断了很多信息。个性化推荐的内容采集自你的兴趣,又决定了你的兴趣。因此,无法接触“新”事物自然就不能培养新的兴趣,容易让用户越来越狭隘。
②人心变幻,机器何解
机器推荐无法识别阅读场景的变化而带来的需求的变化,无法感知用户为什么需要阅读,难以匹配人类情感的复杂程度。例如在某一个阶段,我们因为大家都在讨论某件事而去关注这件事,但这并不意味着我们对类似的事情都感兴趣。
③审美下线,好坏难分
个性化推荐的难度对推荐内容的质量带来了挑战。以往评价一篇文章的好坏对编辑来说都没那么容易,如今机器推荐很容易忽略质量这一维度。机器算法不准确会使标题党内容混杂出现,机器推荐可能会把一篇没有价值的文章推荐的很高,也有可能把真正有价值的文章埋没掉,机器推荐只能从外部数据来衡量你的文章有没有价值,目前还没有办法从内容的本质上分析有没有价值。
④耗时较长,总慢半拍
基于海量数据的个性化推荐行为耗时较长,即时性较差。如新闻推荐存在及时性问题,需要不断更新,通过分析用户的历史行为、对比类似用户等数据分析工作耗时较长,不易在第一时间形成推荐结果。并且协同过滤等方法还存在冷启动的问题,即在用户体验之初,并未形成成熟的历史数据时,需要经过很长的时间收集用户点击日志数据,从而产生推荐。
⑤热点共通,个体趋同
并不是所有的用户都彼此相等,但协同过滤方法不考虑用户之间的个体差异。例如,我们观察到娱乐新闻不断推荐给大多数用户,即使用户不点击娱乐的故事。原因是,娱乐新闻一般都是非常流行的,因此总是从一个用户的“邻居”的娱乐故事足够的点击进行推荐。
3.未来的机遇在哪里?
未来的机遇在于两大推动力:业界对长尾金矿的商业动力;用户强烈的个性化需求的推动。
①长尾金矿
个性化推荐能够帮助用户发现更多优质的长尾内容,提高平台商业价值。一般平台用户访问的只局限在热门的10%左右的内容,很多小众的、冷门的内容却沉在数据库中不易被发现,我们将其称之为长尾内容。
按长尾理论,由于成本和效率的因素,当商品储存流通展示的场地和渠道足够宽广,商品生产成本急剧下降以至于个人都可以进行生产,并且商品的销售成本急剧降低时,几乎任何以前看似需求极低的产品,只要有卖,都会有人买。个性化推荐能够通过协同过滤中基于用户的推荐技术将小众喜欢的长尾内容扩散开来,充分挖掘长尾内容,产生长尾金矿。
②时代刚需
我们所处的时代已经变化了。经过20年发展,互联网变成了移动互联网,现在即将融合AI进入IOT时代,终端和信息正在以核爆的态势发生急剧膨胀,用户在海量的数据中想要找到他们需要的信息将变得越来越难。在这种情况下,传统的搜索引擎已经力不从心。早先最具代表性的就是分类目录的雅虎和搜索引擎的谷歌,已经进入死胡同,想要通过搜索引擎去了解一个陌生领域的知识,效率极低!
要满足时代刚需,希望在于个性化推荐。机器需要尽可能的了解用户,并且根据用户的数据,主动推荐让用户有兴趣和需求的信息。目前这20来年,虽说取得了一点点成就,但仅仅是唐僧取经迈出了第一步,还有很长的路要走。
4.当下需要跨越的三座大山
个性化推荐在发展过程中面临很多诸如难以预测用户兴趣、用户相关数据涉及隐私以及数据的处理难度等问题,都给个性化推荐带来了很大的威胁和挑战。
第一座山,准确。
用户的兴趣易受多重因素影响而不断变化,这对个性化推荐来说是个不可避免的挑战。个性化推荐系统的基础部分是用户兴趣建模,用户兴趣建模的质量直接决定了个性化推荐的质量。但是用户兴趣随时都会受到社交、场景、环境等多重因素影响,用户兴趣地不断变化使得根据以往数据预测用户未来倾向的工作变得很难,也会影响推荐结果的准确性。
第二座山,隐私。
对以用户数据为基础进行的个性化推荐来说,如何保护用户隐私是个不小的难题。传统的内容推荐系统对用户的页面访问记录进行数据挖掘,找出用户的访问习惯,然后在服务器端根据用户需求进行信息筛选,试图为用户提供信息推荐服务和垃圾信息过滤服务。但如何能在保护用户隐私的同时,又为用户提供更准确的内容推荐服务是一个不小的挑战。
第三座山,价值观。
除了三座大山外,还有一个问题也值得重视。现在的机器推荐等于“没有三观”、“没有审美”,在中文圈运营,由于众所周知的原因,一定会遇到相当的挑战。
流量造假和作弊是比较明显的例子。比如有网友告诉笔者说:网上经常看到一些视频学习人数几万、几十万,数字大的得令我们怀疑人生,结果测试了一下,页面刷新一次人数就加三而新课程加几十,瞬间明了。半夜测试某些视频直播,对着墙拍,从启动直播十分钟直播粉丝还能蹭蹭往上涨,进一个真粉丝时人数又一波涨,作弊一时爽,但心里不踏实。
曾经有企业在智能推荐的客户端上投过一些非常垂直大号的广告,有的效果真好,有的造假太明显---在阅读量瞬间破万的时候带过来的流量,还不如自己阅读破千的号效果好。如此种种,数据是正经的,就看用它的人正经不正经了。
未来,个性化推荐如何在技术和管理上继续革新,人工智能因素的参与能否改善现存的诸多问题,为用户产生更优质的推荐结果将成为一个重要课题。
三、巨头正在开辟的技术路线
其实,无论支持还质疑有多么大,个性化推荐已经引得无数巨头竞折腰。
目前在市场上,依然是新老技术各占一方地盘,新派深度学习技术快速崛起,咄咄逼人;老派技术也在不断优化,以防不测。新老技术之争,是当下的一个热点,也是决定未来发展的两大路线。
(一)老派技术认为:传统推荐技术可以自我完善
1.Google新闻的套路,不断优化
Google新闻是一个在线信息门户站点,它聚集数千家信息源的新闻报道(在将相似新闻分组后)并以个性化的方法展现给登录用户。由于文章和用户数量巨大,以及给定的响应时间要求,纯粹的基于记忆的方法是不适用的,需要一种可扩展的算法,因此Google新闻组合使用了基于模型和基于记忆的技术。
Google新闻的套路依然是协同过滤的底子。它在个性化推荐方面采用的是基于模型和基于记忆的技术相结合的协同过滤技术。根据《推荐系统》一书的介绍,基于模型的那部分依赖两种聚类技术:
①概率潜在语义索引(PLSI):协同过滤的“第二代”概率技术,为了识别出有相似想法的用户和相关物品的聚类,引入了隐藏变量,对应每个用户—物品对的有限状态集合,能适应用户可能同时对多个主题感兴趣的情况。
②MinHash:根据两个用户浏览过物品的交集将两者放入相同的聚类(哈希桶)。为了让这种哈希过程具有可扩展性,采用了一种特殊方法寻找近邻,并采用Google自己的MapReduce技术在几个机群之间分发计算任务。
基于记忆的方法主要是分析“伴随浏览量”。“伴随浏览量”指的是一篇文章在预先定义的一段时间内被相同用户浏览过。预测时需要遍历活跃用户最近的历史数据和从内存里获取邻近的文章。运行时,预先设定集合里候选物品的综合推荐评分是这三种方法(MinHash、PLSI和伴随浏览)获得的分数的线性组合计算值,然后再根据计算值的高低进行推荐结果的输出。
2.Linkedin为四个场景开发的系统
Linkedin主要是通过自主研发设计的协同过滤推荐平台Browsemap实现个性化推荐。Browsemap是Linkedin开发的一个实现了物品协同过滤推荐算法的泛化平台,该平台可支持Linkedin中所有实体的推荐,包括求职者、招聘贴、企业、社会群体(如学校等)、搜索词等,若要通过该平台实现某个新的实体协同过滤推荐,开发者要做的工作仅仅包括:相关行为日志的接入、编写Browsemap DSL配置文件和调整相关过期参数等简单工作。
论文指出,Browsemap平台在Linkedin最常用的有四个推荐场景:给求职者推荐公司、相似公司推荐、相似简历推荐和搜索词推荐等等。
①给求职者推荐公司:通过Browsemap实现基于物品的协同过滤,计算用户和潜在意向公司的相似度值,得到相关公司特征;将相关公司特征和用户/公司内容特征(包括用户位置、工作经验;企业产品、相关描述)一起分析得到最终的偏好分值。
②相似公司推荐:与给求职者推荐公司有两点不同:一是内容特征相似度变为公司画像之间的相似度;二是基于多种用户行为构建browsemap。
③相似简历(用户)推荐:通过公司详情页浏览行为和用户画像特征实现该部分推荐。同时将相似简历的属性用于补足简历的缺失属性,得到该用户的虚拟简历。
④搜索词推荐提供了四种关联方式:一是协同过滤:在计算搜索词间相关性时会加入时间和空间因素;二是基于推荐搜索词搜索结果的点击率;三是基于搜索词之间的重合度;四是基于推荐搜索词的点击率。但实验结果表明协同过滤的结果最好,甚至也好于将这四种方式综合的结果。
3.今日头条的三个阶段
作为国内当红的个性化推荐产品,今日头条技术经历了三个阶段:
早期阶段,以非个性化推荐为主,重点解决热文推荐和新文推荐,这个阶段对于用户和新闻的刻画粒度也比较粗,并没有大规模运用推荐算法。
中期阶段,以个性化推荐算法为主,主要基于协同过滤和内容推荐两种方式。协同过滤技术思想和前文介绍的并无差别。基于内容推荐的方式,则是先对新闻进行刻画,然后利用用户的正反馈(如点击,阅读时长、分享、收藏、评论等)和负反馈(如不感兴趣等)建立用户和新闻标签之间的联系,从而来进行统计建模。
当前阶段,以大规模实时机器学习算法为主,用到的特征达千亿级别,能做到分钟级更新模型。架构分为两层:检索层,有多个检索分支,拉出用户感兴趣的新闻候选;打分层,基于用户特征、新闻特征、环境特征三大类特征使用实时学习进行建模打分。值得一提的是,实际排序时候并不完全按照模型打分排序,会有一些特定的业务逻辑综合在一起进行最终排序并吐给用户。
头条为何能取得成功?文章分析,很多人会说是头条的个性化推荐技术做得好,其实不尽然。原因在于,今日头条的个性化推荐也是经历着复杂的演变过程:从人工推荐到机器推荐再到最终不断迭代算法和技术,反复的进行验证,日益完善。
(二)新派技术认为:深度学习才是明智选择
新派技术主要指采用了深度学习的个性化推荐系统。
深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
当常规推荐算法已经无法及时地分析处理体量较大的数据并准确地针对独立用户做出推荐时,具备相应技术水平的公司开始利用深度学习解决海量内容分析推荐的痛点。我们以较早开始引入深度学习的YouTube、Facebook为例进行分析。
1.YouTube的神经网络
YouTube的推荐系统是是世界上规模最大、最复杂的推荐系统之一。YouTube的全球用户已经超过十亿,每秒上传的视频长度以小时计。视频“语料”库存日益增长,就需要一个推荐系统及时、准确地将用户感兴趣的视频不断推荐给用户。
相比其他商业推荐系统,Youtube推荐系统面临三个主要的挑战:
①规模。现有绝大多数可行的推荐算法,在处理YouTube级别的海量视频就力不从心了。
②新鲜度。YouTube视频“语料”库不仅仅是储量巨大,每时每刻上传的新增视频也是源源不断。推荐系统要及时针对用户上传的内容进行分析建模,同时要兼顾已有视频和新上传视频的平衡。
③噪声。由于用户行为的稀疏性和不可观测的影响因素,用户的历史记录本质上难以预测。
为了解决这些问题,YouTube推荐系统将研究重点转移到深度学习,使用Google Brain开发的TensorFlow(Google研发的第二代人工智能学习系统)系统为推荐系统带来了开发测试上的灵活性。
YouTube推荐系统主要由两个深度神经网络组成:第一个神经网络用来生成候选视频列表;第二个神经网络用来对输入视频列表打分排名,以便将排名靠前的视频推荐给用户。
候选视频生成是依靠协同过滤算法产生一个宽泛的针对用户的个性化推荐候选名单。排名神经网络是基于第一个候选生成网络的列表,提供更精细的区分细化,从来达到较高的推荐命中率。通过定义目标函数来提供一系列描述视频和用户的特征,排名网络则根据目标函数来给每一个视频打分。分数最高的一组视频就被推荐给用户。
正是YouTube海量级别的视频才产生了深度学习的需要,有效弥补了协同过滤存在地处理数据耗时长等问题。
2.Facebook迈出的一大步
Facebook近10年来一直沿用其Newsfeed功能实现个性化推荐。2006年9月份,NewsFeed(信息流)问世,同时问世的还有MiniFeed(个人动态)。NewsFeed是一个系统自动整合生成的内容信息流,它自行来决定我们读到哪些新闻、动态、事件。它所覆盖的范围,其信息推送的精准度,以及其影响力远超过我们的想象,可以说NewsFeed是Facebook在人工智能上所走的一大步。
Facebook是如何利用深度学习来评价内容和用户的呢?
第一,在检视文本方面,Facebook使用“自然语言处理”技术来扫描每个人发的“状态”和“日志”,以便“真正理解文本的语义”,不仅如此还要将它们评级。日志在扫描的过程中,系统会自动识别出“过度标题党”或者“过度商业化”的内容,而且这样的内容在NewFeed里面是越来越少见到了。
第二,在内容翻译上,当在处理非英语的语言时,Facebook工程师专门开发了一个深度学习平台,每一天会对100多种语言所写成的文本进行分析,翻译。比如当一个朋友以德语发表了一条动态时,NewsFeed会以英语体现出来给一个美国的朋友,营造了一个能够跨过语言障碍的,人人实现互联互通的数字虚拟环境。
第三,在识别物体方面,Facebook也在利用深度学习技术来识别照片和视频里面的物体,不仅如此,它还能进一步地去探究谁有可能对这些照片感兴趣,或者这些照片跟哪些用户相关联,从而推荐给目标用户。
(三)深度学习之困境
深度学习能打遍天下无敌手吗?
至少目前来看,深度学习只是在Speech和Image这种比较“浅层”的智能问题上效果是比较明显的,而对于语言理解和推理这些问题效果就有点失分,也许未来的深度神经网络可以更“智能”的解决这个问题,但目前还差点火候。
深度学习在推荐系统领域的研究与应用还处于早期阶段。即使深度学习被认为能够解决协同过滤的冷启动、数据处理较慢的问题,但是风光之下,它也有自己的难言之隐。
第一,成本太高。数据对深度学习的进一步发展和应用至关重要。然而过分倚重有标注的大数据也恰恰是深度学习的局限性之一。数据收集是有成本的,而且标注成本已经开始水涨船高,这就使得深度学习的成本过高。而且对于体量较小、数据较少的众多小公司来说,即使有能力用深度学习改善个性化推荐结果,也面临着没有数据支撑的尴尬境地。
第二,降低成本的方案有没有?有,但是难以实现。深度学习分为有监督学习和无监督学习,大量无监督数据的获取成本却是微乎其微的。目前一般用的都是监督学习,但本质上基于监督学习的大多数推荐模型都很难彻底规避现存问题从而提高推荐质量。无监督学习由于无需对数据进行加标签等原因成本较有监督学习较低,但目前深度学习对无监督数据的学习能力严重不足,因此深度学习在推荐系统中的应用仍处于早期阶段。
新老派两大力量相互抗争、相互促进但又相互交融。传统推荐技术在深度学习的冲击下不断完善,深度学习带着赶超传统推荐技术的强势劲头不断革新但也面临着发展窘境。但正是在多个平台的这种自我发展和革新的过程中,新老派的界限也变得越来越模糊,越来越走向融合。即使坚持完善传统推荐技术的公司也开始慢慢涉足到深度学习的领域中,深度学习发展较为成熟的新派也并没有完全摒弃老派技术,那么,未来到底何派为王?
四.未来鹿死谁手?
内容C2M,本质上是对人心的一种洞察和预测。技术与人心的斗法,并非一朝一夕便能奏功。人类思想的根本特征在于“意识”,即个体理解自己与他人的心理状态,包括情绪意图、期望、思考和信念等,并借此信息预测和解释他人行为的一种能力。
但是,当前的人工智能领域中存在着一个很严重的问题:人们误解了深度学习模型的工作机理,并高估了网络模型的能力。
通过深度学习,我们可以训练出一个模型,它可以根据图片内容生成文字描述。这个过程被视作机器“理解”了图片和它生成的文字。当某个图像存在轻微改变,导致模型开始产生相当荒谬的字幕时,结果就会让人非常惊讶—模型失灵了。机器能找出一只猫,但机器仍然不能识别跟猫相关的所有信息。
回顾历史不难发现,技术一直追求的目标,与其说是让机器替代人类,而不如说是制造聪明的机器来提高效率。协同过滤技术的发展便是个明显的例子。
最近几年来,互联网巨头制造“聪明的机器”的积极性异常高涨,也是效率使然。根据微软研究院的估计,亚马逊网站上大约30%的页面浏览来自于推荐系统;Netflix首席产品官声称80%以上的电影观看来自于推荐系统,并称Netflix推荐系统的价值每年高达十亿美元;据阿里巴巴披露数字,2013年当天由推荐直接引导的成交总额为56.8亿元。今日头条则将公司核心业务架构在推荐引擎上,是当今最重视推荐技术的公司之一……
在内容C2M发展历程中,尽管深度学习存在许多不足,但深度学习主导未来是大概率事件。我们看到代表着传统推荐技术和深度学习的新老派在相互促进和相互融合,在全球流量前20的平台中,虽然有不少公司依然沿用采用协同过滤技术,比如Google新闻,LinkedIn等,但是其中一些公司也已经准备甚至已经采用深度学习等技术来改进自身不足。而YouTube、Facebook等先行者已开始享受深度学习的红利。
从饲养员模式到聪明的机器,内容产业的C2M已然成势,颠覆日,不远了。
我们可以相信,虽然深度学习还存在着一些制约因素,但是,随着AI技术和产业的强劲发展,技术上的瓶颈终究会被突破。
需要警惕的是,在C2M跨越了准确、隐私两座大山后,人类通过AI掌握了新的力量,掌握者的欲望和野心,也应该受到一定的控制,尤其是价值观问题,将显得越发重要。
扫一扫关注微信公众帐号