产品经理需要了解的算法——热度算法和个性化推荐
——今日头条的流行,引出了“个性化推荐”的概念。从那以后,基于内容的产品的个性化算法逐渐从卖点变成了标准的。有了“机器学习”、seo优化学习“大数据”等热门词汇和概念,产品档次瞬间提升了不少。各种推荐算法不仅仅是自己开发的任务。作为产品经理,他们必须深入算法,参与算法的设计,并根据内容不断“调优”算法,使产品推荐算法不断完善,最终结合自己的内容。
1.算法的开发阶段
产品第一次发布时没有个性化推荐。有实力的seo优化基于用户行为或内容相似性的个性化是基于大量的用户和内容。产品发布之初,双方数据不全,无法进行个性化推荐。
所以在产品开发前期,推荐内容一般采用一种更聚合的“热度算法”,顾名思义就是先把热门内容推荐给用户。虽然不可能基于兴趣和习惯为每个用户准确推荐,但是可以覆盖大部分内容需求,启动成本比个性化推荐算法低很多。
所以对于基于内容的产品,建议在发布初期使用heat算法实现冷启动,西安seo培训积累一定数量级后才能逐步开发个性化推荐算法。
2.热度算法
2.1热算法的基本原理
需要理解的是,heat算法也需要不断优化和改进。基本原则是:
新闻热度得分=初始热度得分+用户交互产生的热度得分& # 8211;热分数随时间衰减
得分= S0 + S(用户)& # 8211;秒(时间)
新闻入库后,系统给它一个初始热度值,新闻进入推荐列表进行排序;由于新闻不断被用户点击阅读、收集、分享等。,这些用户行为被视为帮助新闻增加知名度,系统需要给每一类新闻一个热点值;同时,新闻是一个时效性很强的内容,所以在新闻发布后,温州seo培训随着新闻的过时,人气必然衰减。
新闻的热度在这些算法的综合作用下不断变化,推荐列表的排名也是如此。
2.2初始热度不应一致
上述算法对每一条传入的新闻赋予相同的热度值,但实际使用后发现不可行。比如娱乐类的知名度远高于文化类本身;或突发严重灾害或事故;或者在奥运会期间,运动类别的关注度突然提高;这时候如果每条新闻都给一样的热度,那就不太符合现实了。
解决方案是将初始热量设置为一个变量:
(1)根据新闻类别赋予新闻不同的初始热度,让用户关注度高的类别获得更高的初始热度评分,从而获得更多的曝光度,例如:
(2)对于重大事件的报道,如何使其入库时有更高的热度,西安seo培训我们采用热词匹配法。
也就是说,对大型新闻网站、Twitter热点、java和SEO引擎优化竞品的头条进行监控和拾取,将这批新闻的关键词维护在热点词库中并保持更新;每条新闻入库时,让新闻的关键词与热门词库匹配。匹配度越高,初始热评分越高。
经过这种处理,当一个重大事件发生时,Twitter和门户网站的争相报道会导致热词的集中化,所有匹配这些热词的新闻,也就是报道同一事件的新闻,都会获得较高的初始热度评分。
2.3用户行为规则不固定
解决了新闻入库的初始点之后,接下来就是新闻热点的变化。首先要明确用户的哪些行为会增加新闻的热度,然后给这些行为赋予一定的评分规则。例如,对于一条新闻,用户可以点击阅读(点击)、享受(青睐)、聊城网站建设分享(分享)、评论(评论)这四种行为,我们给不同的行为打分,我们可以把新闻实时用户行为分为:
s(用户)= 1 *点击+5 *青睐+10 *评论+20 *分享
这里给不同行为的评分是1,5,10,20,但是这个值不能固定;当用户规模较小时,所有事件都较小,聊城网站建设需要提高每个事件的行为评分,以增强用户行为的影响力;当用户规模变大时,行为评分也要慢慢降低,所以在做内容操作时,行为评分要不断调整。
当然还有一种偷懒的方式,就是考虑用户规模,聊城网站建设计算固定数量用户的行为得分,即:
s(用户)= (1 *点击+5 *青睐+10 *评论+20 *分享)/dau * n(固定数)
这样,用户行为产生的行为得分在不同的用户尺度下基本稳定。
2.4热随时间的衰减不是线性的
由于新闻的时效性很强,发布新闻的热值必然随着时间的推移而衰减,趋势应该是衰减越来越快,直到接近零热度。换句话说,如果一条新闻要一直处于靠前的位置,那么随着时间的推移,它一定会被越来越多的用户所维护。
我们要求推荐给用户的新闻必须在24小时内。所以理论上衰减算法必须保证新闻的热度在24h后会衰减到很低的水平。如果是线性衰减,当某条新闻突然被大量用户阅读并获得高人气时,可能会长期持续排名靠前,让用户觉得内容更新太慢。
参考牛顿冷却定律,时间衰减因子应为指数函数:
t(时间)= e ^(k *(t1 & # 8211;T0))
其中T0为新闻发布时间,T1为当前时间。
而且因为热度的发展是无限趋近于零热度的结果,最后的新闻热度算法也调整如下:
分数= ( S0(类型)+ S(用户))/ T(时间)
2.5其他影响因素
很多新闻产品都给用户“喜欢”、有实力的seo优化“踩”、“不推荐这种”的选择。这些功能不仅适合个性化推荐,对heat算法也有一定的影响。
新闻的推送会造成大量的开篇,计算热度时需要排除。SEO优化学习诸如此类的因素都会对heat算法产生影响,所以在heat算法上线后还是需要不断的“调优”。建议将所有调整指标做成匹配项,如初始热度评分、行为事件评分、衰减因子等。,使产品和运营能够实时调整和验证效果,达到最佳状态。
3.基于内容的推荐算法
现在你的内容产品已经成功过了前期,每天的活动有几万甚至几十万。这时候你发现热度算法导致用户的阅读内容过于集中,而个性化和长尾的内容却很少见到。看来是时候进行个性化推荐了,让用户不仅能看到大家喜欢的,温州seo培训还能看到自己感兴趣的。
个性化推荐一般有两种解决方案,一种是基于内容的相关推荐,另一种是基于用户的协同过滤。因为基于用户的协同过滤对用户规模的要求更高,所以更多的是使用基于内容的相关推荐来切入。
本文引入了“新闻特征向量”的概念来识别新闻的属性,并比较新闻之间的相似性。我们把新闻看成是所有关键词(标签)的集合。理论上,如果两条新闻的关键词更相似,那么两条新闻更有可能是相关内容。新闻特征向量是由新闻中包含的所有关键词决定的。获取新闻特征向量的第一步是将新闻内容拆分到关键词级别。
3.1分词
分词需要两个库,聊城网站建设正常字库和禁用字库。正常的词库类似词典,是把内容分解成词的标准;停产词库是分词过程中首先需要丢弃的内容。
停用词主要没有实际意义,如助词如“the”、“that”、“are”;它表达的是两个词之间的直接关系,比如“后面”、“下面”等介词,以及“认为”、“给”等很多频率高但没有偏误的常用动词。显然,这些词对分词没有影响,所以在分词之前,应该先把这些内容剔除掉。
对于剩下的对,使用标准词库进行分词,分词方法包括正向匹配分词、反向匹配分词、最小分词等常用算法,此处不展开。
由于网络世界热门词汇频繁出现,标准词库和停产词库需要不断更新和维护。比如“蓝瘦香菇”“满套路”之类的话,可能会对最终结果产生影响。如果不及时更新到词库,算法就会“发呆”。
所以建议找或者买可以随时更新的词汇,各种语言都有。
3.2关键词指标
如前所述,新闻特征向量是新闻中关键词的集合,因此关键词的重合度是一个非常重要的度量。
那么问题来了,如果两条新闻的关键词重合度达到80%,是否意味着两条新闻有80%的相关性?
实际上不是,例如:
(1)一则关于“广州摩比克出货激增”的新闻,主要讲摩比克的出货情况。“mobike”是这个新闻中出现频率非常高的词,新闻结尾有一句话“广州最近天气不错,可以骑车出去旅游”。因此,关键词“广州天气”也包含在特征向量中。
(2)另一则消息,“广州回归南天即将结束,天气持续好转。”这条新闻的结尾有一句话“天气变好了,大家都可以骑着摩托车出去散步了。”在新闻中,“广州天气”是一个非常高频的词,“mobike”虽然被收录,但只出现一次。
这两个新闻的关键词虽然相似,java和SEO引擎优化但谈论的内容完全不同,相关性很弱。如果只看关键词重合度,误判的可能性很大;所以特征向量还需要第二个关键词的索引,称为新闻内频率,称为TF(Term Frequency),来衡量每个关键词在新闻中的频率是否高。
那么问题来了。如果两个新闻故事的关键词重合,那么关键词在新闻中出现的频率几乎是一样的。是否说明相关性很强?
理论上可以,温州seo培训但是还有一种情况:如果我们的新闻数据库里所有的新闻都是关于广州,广州天气,广州交通,广州经济,广州体育等。,java和SEO引擎优化都是讲广州相关情况,关键词都包括广州、天河、越秀、海珠(广州各区)等。,并且具有相似的频率,因此该算法可以很容易地将其判断为强相关新闻;从地理上来看,这种相关性确实很强,但从内容类别层面来看,相关性并不多。如果我是运动爱好者,你给我推荐天气和流量没有太大意义。
所以引入了关键词的第三个指标,即所有文档中关键词频率的反义词,称为IDF(逆文档频率)。为什么是相反的值?因为某个关键词在某个新闻中出现的频率最高,所以它在所有文档中出现的频率越低,该关键词对该新闻的特征识别的影响就越大。
这样就可以衡量出每个关键词对新闻的影响,即TFIDF=TF * IDF,温州seo培训这也是著名的TF-IDF模型。
3.3相关算法
在完成分词和关键词索引之后,可以通过关键词集合来识别每个新闻的特征:
单词0,1,2...n是新闻的所有关键词,tfidf0,1,2...n是每个关键字的tfidf值。
两条新闻之间的相似性可以通过重合关键词的tfidf值来衡量。根据之前学到的知识,几何中的角度余弦可以用来度量两个向量方向的差异,所以我们的算法中使用角度余弦来计算新闻关键词的相似度。夹角越小,相似度越高。
通过关键词和每个关键词的tfidf,我们可以计算新闻的相似度。假设两个新闻的特征列表如下:
可以看出,两个新闻中有五个重叠的关键词:广州、摩比克、孙、天河、市长,所以这五个关键词决定了两个新闻的相关性,计算方法如下:
得到两个新闻相关性的最终值;同样,我们可以得到一条新闻与新闻库中所有内容之间的相关性。
3.4用户特征
获取新闻特征后,需要获取用户特征进行匹配和推荐,那么如何获取用户特征呢?
需要通过用户的行为获得,用户通过阅读、赞美、评论、分享等方式表达对新闻内容的喜爱;类似于人气排名,我们对用户的行为给予一定的“喜爱分数”,比如阅读1分、赞2分、评论5分等。,将新闻特征与用户行为结合后,就可以得到用户的特征得分。
随着阅读新闻的用户越来越多,用户的标签也越来越准确。
因此,在获取新闻特征时,可以与用户的关键词列表进行匹配,获取新闻与用户阅读特征的匹配度,舟山seo培训并进行个性化推荐。
3.5其他应用
除了个性化推荐之外,基于内容的相关性算法还能准确给出一条新闻的相关推荐列表,对于相关阅读的实现非常有意义。此外,标签系统对新闻分类的实现和准确率的提高也具有重要意义。
3.6优点和缺点
基于内容的推荐算法有几个明显的优点:
对用户数量没有要求,无论日常生活几千或几百万都可以使用;所以在个性化推荐的前期一般采用这种方法;
每个用户的特征都是由自己的行为决定的,它们独立存在,互不干扰,因此恶意阅读等新闻不会影响推荐算法。
主要缺点是确定性太强,所有推荐的内容都是由用户的阅读历史决定的,没有办法挖掘用户的潜在兴趣;正因为如此,有实力的seo优化基于内容的推荐一般与其他推荐算法共存。
4.基于用户的协同推荐
最后,舟山seo培训通过团队的努力,你的产品已经有了大量的活跃用户,然后你对现有的算法不满意。虽然基于内容的推荐很精准,但总是有点不那么性感。因为你给用户的内容都是基于用户的阅读习惯推荐的,你不能给用户“萍水相逢”的感觉。
于是,你开始做基于用户的协同过滤。
基于用户的协同过滤推荐算法,简单来说就是根据用户A的阅读偏好找到与他兴趣最接近的群体,所谓“人分群”,然后这个群体中的其他人喜欢,而A却没有读过。内容推荐给A;比如我是一个足球迷,系统发现和我相似的用户都是足球的重度读者,但同时这些“足球群体”中也有一部分人有看NBA新闻的习惯,所以系统可能会向我推荐NBA内容,很有可能我也对NBA感兴趣,这样我后台的兴趣图就更完善了。
4.1用户组划分
做基于用户的协同过滤,首先要划分用户,可以从三个方面入手:
(1)外部数据的借用
大部分来自社交平台的数据都用在这里。现在产品的登录系统一般都是借用第三方社交媒体的登录系统,比如国外的facebook和Twitter,国内的微信和微博。借用第三方账户有很多好处,比如降低门槛,方便沟通等。,在个性化推荐中也能发挥重要作用。因为第三方账户被授权获取一些用户信息,这些信息往往包括性别、年龄、工作甚至社会关系等。,这些信息对用户群划分很有意义。
此外,还可以借用一些其他的数据,比如IP地址、手机语言等。
利用这些数据,你可以很容易的找出一个用户是北京人还是上海人,是大学生还是企业家,并根据这些属性进行准确的分类。比如某个行业投资分析出来后,“上海创业圈”这个群体80%的用户都看过,可以推荐给剩下的20%。
(2)产品中的主动查询
通常产品第一次启动时,弹出框会询问用户是男是女,职业等。聊城网站建设,可以为内容推荐冷启动提供一些帮助。但是一般来说性价比低,只能问两三个问题,对用户的推荐内容进行非常粗略的划分,同时避免打扰用户;这种做法是基于用户个性化的雏形。
(3)比较用户特征
如前所述,新闻的特征和用户的阅读数据可以得到用户的特征,所以可以根据用户特征的相似性来划分群体。
4.2内容推荐和实施
我们结合一个小例子来了解用户协同过滤的原理,包括如何计算用户之间的相似度,如何做推荐。假设有A、B、C、D、E五个用户,阅读了几篇新闻文章,做了阅读、赞、收藏、评论、分享等操作。我们对这些行为给出1分、2分、3分、4分、5分的评分,让用户对每条新闻都有自己的评分,其中“-”表示未读,评分如下:
接下来,我们需要向用户E推荐4、5、6中的哪一个?
用户的阅读特征向量由用户的所有阅读数据决定。我们以用户E阅读的新闻数据为参考标准,寻找与E最相似的用户。
多维向量的距离需要用欧氏距离公式计算,值越小,向量距离越近。
计算结果:
距离(E,A)=4.123(用户A没有阅读新闻2,所以新闻2的数据不能用来计算与用户E的相似度,这里取1,3)
距离(E,B)=3.162
距离(E,C)=3.742
距离(E,D)=1.414
因此得出结论,用户D是最接近用户E阅读偏好的一个,应该优先归类为同类用户。最后根据用户D的阅读数据,先推荐news4。
4.3内容选择
我们通过读取特征向量将用户分组后,下一步就是如何获得新闻推荐的优先级。在上面的例子中,只需要选择一个相似的用户,用户A、B、C、D只阅读新闻4、5、6中的一个,所以比较简单。但是现实中,同一个用户群看很多随机新闻,用户交互比较复杂。如何获得推荐新闻的优先权?
假设用户X在系统中属于A组,该组有n个用户,舟山seo培训即A0、A1、A2……An,这些用户的集合用S(X,n)表示。
首先,我们需要提取所有用户交互过的新闻(阅读、评论等)。)在集合中;
需要剔除用户X看过的新闻,这些不再推荐。剩下的新闻集有M篇,用N(X,M)表示;
剩下的新闻按相似度打分加权。计算包括两部分,一部分是用户X与S(X,N)的每个用户的相似度,另一部分是每个用户对新闻集合N(X,m)中每个新闻的偏好,从而可以得到每个新闻相对于用户X的最终得分。
按照评分的顺序向用户推荐N(X,m)中的新闻列表。
4.4优点和缺点
与基于内容的推荐算法相比,基于用户的协同过滤也有明显的优缺点。
主要优点是对分词等算法的准确性要求不高,推荐是基于用户的行为数据来不断学习和提高;同时可以发现用户潜在的阅读兴趣,“创造惊喜”。
缺点是启动门槛高,用户数量不足时几乎无法进行;并且在学习量不够的情况下推荐结果较差。
5.摘要
网上有很多关于个性化推荐算法的信息,还有很多其他的实现方法,因为作者理解有限,不敢描述。有兴趣可以自行搜索。热门的个性化推荐算法作为大多数基于内容的产品的核心卖点之一,仍在不断发展和完善。没有一个算法是完美的,甚至没有一个算法比别人更好。在实践中,许多产品结合多种算法进行内容推荐。
但是在算法的实现上,产品经理肯定不是说“我们要做个性化推荐”就完事了。他必须深入算法,深入了解算法的原理,然后根据自己的产品特点进行部署和优化。
所以从产品经理的角度,SEO优化学习我整理了一下这个与算法相关的初步介绍。如果你对这篇文章感兴趣,请讨论一下!如有不当描述,请指正,万分感谢!
最后,聊城网站建设我需要向我的团队表示感谢。飞哥率先研究算法,并给出了详细的分享。宗荣对算法进行了无数轮的调整和优化。华凯在关键词的部署和效果验证方面投入了大量精力...喜欢那些大家从零开始学习实现算法,让推荐效果越来越好的日子。
从算法原理相关阅读,见推荐策略
今天,随着信息的爆炸式增长,西安seo培训传统的内容和渠道由于范式的转变不再是稀缺资源。今天,更好、更准确地向用户呈现信息和内容是全方位的
数据产品必备的技术知识:机器学习和常用算法,这篇文章就够了
众所周知,产品经理需要了解技术。毕竟产品经理经常会和自己的开发同学谈恋爱。不一定要精通,但至少不要让这个成为交流的障碍。懂点技术,踏实点
数据结构和算法分析(Java语言描述)-树
1.二叉树1.1二叉树的简要描述是一棵树,其中每个节点不能有两个以上的子节点。左图是由一个根和两个子树组成的树。
子网掩码算法
对于一个不需要细分子网的IP地址,它的子网掩码很简单,就是可以按照它的定义来写:如果一个B类IP地址是10.12.3.0,不需要细分子网,那么这个IP地址
C#MD5加密算法示例
使用系统;使用系统。集合。通用;使用系统。文字;使用系统。安全.密码学;命名空间md5{