申请专栏作者
投稿发布
您的当前位置:主页 > yabo体育平台注册页 > 正文

两种简单有效的标签选择方法

来源: 时间:2019-03-10
请点击下面的广告后浏览!

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

不论是通过搜索还是推荐,用户看到了很多我们用各种逻辑和理由展示给他的物品,他只从中消费了一部分物品。那么问题来了,到底是那些特性吸引了用户消费呢? 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

一种简单粗暴的办法是直接把用户产生过行为的物品标签累积在一起。但是这里要说的是另一种思路。 可思yabo88滚球-人工智能资讯平台sykv.com

我们把用户对物品的行为,消费或者没有消费看成是一个分类问题,比如点击是“正样本”,“未点击是负样本”。用户用实际行动帮我们标注了若干yabo88滚球,那么挑选出他实际感兴趣的特性就变成了特征选择问题。 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

最常用的是两个方法:卡方检验(CHI)和信息增益(IG)。基本思想是:

可思yabo88滚球-人工智能资讯平台sykv.com

  • 把物品的结构化内容看成文档。 可思yabo88滚球-人工智能资讯平台sykv.com

  • 把用户对物品的行为看成是类别。 内容来自可思yabo88滚球sykv.com

  • 每个用户看见过的物品就是一个文本集合。

    本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处
  • 在这个文本集合上使用特征选择算法选出每个用户关心的东西。

    可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

CHI 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

CHI 就是卡方检验,本身是一种特征选择方法。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

前面的 TF-IDF 和 TextRank 都是无监督关键词提取算法,而 CHI 则是有监督的,需要提供分类标注信息。为什么需要呢?在文本分类任务中,挑选关键词就得为了分类任务服务,而不仅仅是挑选出一种直观上看着重要的词。卡方检验本质上在检验“词和某个类别 C 相互独立”这个假设是否成立,和这个假设偏离越大,就越说明这个词和类别 C 有关联,这个词当然就是关键词了。

可思yabo88滚球sykv.com,sykv.cn

计算一个词 Wi 和一个类别 Cj 的卡方值,需要统计四个值:

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com
  • 类别为 Cj 的文本中出现词 Wi 的文本数 A。

    可思yabo88滚球-人工智能资讯平台sykv.com

  • 词 Wi 在非 Cj 的文本中出现的文本数 B 。

    可思yabo88滚球sykv.com
  • 类别为 Cj 的文本中没有出现 Wi 的文本数 C。 内容来自可思yabo88滚球sykv.com

  • 词 Wi 在非 Cj 的文本中没有出现的文本数 D。 可思yabo88滚球sykv.com,sykv.cn

听起来有点绕,我把它画成一个表格更加一目了然。 可思yabo88滚球sykv.com,sykv.cn

可思yabo88滚球sykv.com

然后按照如下公式计算每一个词和每一个类别的卡方值:

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

可思yabo88滚球-www.sykv.cn,sykv.com

关于这个卡方值计算说明几点:

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

  • 每个词和每个类别都要计算,只要对其中一个类别有帮助的词都应该留下。

    可思yabo88滚球-人工智能资讯平台sykv.com
  • 由于是比较卡方值的大小,所以公式中的 N 可以不参与计算,因为它对每个词都一样,是总的文本数。 可思yabo88滚球sykv.com,sykv.cn

  • 卡方值越大,意味着偏离“词和类别相互独立”的假设越远,靠“词和类别互相不独立”这个备择假设越近。

    可思yabo88滚球sykv.com,sykv.cn

实现卡方算法时候,需要稍微对原公式做一定的变化,降低实现复杂度。观察表格中,有些统计量是不好统计的,比如“不属于类别 $C_{j}$ 且不包含 $W_{i}$”这个统计量。我们借助另外的统计量来计算卡方值,目的是对语料库一次遍历就得到每个标签的卡方值。

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

只需要统计这几个量:

内容来自可思yabo88滚球sykv.com
  • A:类别 Cj 中包含词 Wi 的数量;

    可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com
  • M: 类别 Cj 的语料数量,也就是 A+C 的值;

    可思yabo88滚球sykv.com,sykv.cn
  • Q:包含词 Wi 的语料数量,也就是 A+B; 可思yabo88滚球sykv.com,sykv.cn

  • N:全部语料数量 可思yabo88滚球sykv.com

于是原公式中的 B,C,D 分别就是: 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • B = Q - A

    可思yabo88滚球sykv.com,sykv.cn

  • C = M - A

    可思yabo88滚球sykv.com,sykv.cn
  • D = N + A - Q - M

    可思yabo88滚球-www.sykv.cn,sykv.com

每个标签与每个类别的卡方值计算方式为:

可思yabo88滚球-人工智能资讯平台sykv.com

可思yabo88滚球sykv.com,sykv.cn

python 实现如下: 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

可思yabo88滚球sykv.com,sykv.cn

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

IG(信息增益)

可思yabo88滚球sykv.com,sykv.cn

IG 即 Information Gain,信息增益,是一种有监督的关键词选择方法,需要有标注信息。要理解信息增益,理解了信息熵就差不多了。 可思yabo88滚球-人工智能资讯平台sykv.com

如何理解信息熵?我们还是以上述表格示例说明。一批文本被标注了类别,那么任意挑出一条文本问你,“猜猜这是什么类别?”如果原来每个类别的文本数量都一样,那肯定最不好猜,如果其中一个类别的文本 C 数远远多于其他类别,那么你猜这条文本属于类别 C 就很可能猜对。这两个情况区别就在于信息熵不同:

可思yabo88滚球sykv.com
  • 各个类别的文本数量差不多时,信息熵就比较大。 可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

  • 其中少数类别的文本数量明显较多时,信息熵就较小。 可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

再进一步想一件事,如果从这一堆文本中再挑出包含有词 W 的文本,再来猜任意一条文本的类别时,仍然会有上面两种情况。这时候考虑一个情况:如果在整个文本上的情况属于情况 1,但挑出包含词 W 后变成情况 2 了,那么你自然会想:这个词 W 是不是非常有用?因为,有了它我们就能以较高的成功率猜对任意一条文本的类别了。 可思yabo88滚球-www.sykv.cn,sykv.com

对,上面这个思考过程就是信息增益的思想,信息增益计算分为一下三步:

可思yabo88滚球-人工智能资讯平台sykv.com

1. 统计全局文本的信息熵,通常是按照类别的分布计算,计算公式为:

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

可思yabo88滚球sykv.com,sykv.cn

其中,$p(C_i)$ 是类别在语料库中的概率

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

2. 统计每个词的条件熵,就是知道了一个词后再统计文本的信息熵,只不过这里要分别计算包含词和不包含词两部分的信息熵,再按照各自文本比例加权平均,计算公式为: 可思yabo88滚球sykv.com,sykv.cn

可思yabo88滚球sykv.com

计算待评估标签在整个语料库上的概率 $p(tag)$,以及在出现标签的语料库子集中的熵和在不出现标签的语料库子集的熵,最后按照概率加权平均。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

3. 两者相减就是每个词的信息增益。即:

可思yabo88滚球-人工智能资讯平台sykv.com

可思yabo88滚球-www.sykv.cn,sykv.com

信息增益应用最广就是yabo88滚球挖掘中的决策树分类算法,经典的决策树分类算法挑选分裂节点时就是计算各个属性的信息增益,始终挑选信息增益最大的节点作为分裂节点。 内容来自可思yabo88滚球sykv.com

卡方检验和信息增益不同之处在于:前者是针对每一个分类单独筛选一套标签出来,后者是则是全局统一筛选。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

这些方法都是在离线阶段批量完成的,把用户的画像生成配置成离线任务,每天更新一遍,次日就可以使用新的用户画像。对于一个新用户,能不能在他刚刚进入产品时就快速生成一个简单的画像呢?答案是:当然可以。后面的文章中会讲到这个 MAB 问题。 可思yabo88滚球sykv.com

信息增益用 Python 实现如下: 内容来自可思yabo88滚球sykv.com

可思yabo88滚球-www.sykv.cn,sykv.com

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

还有一句 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

两个标签选择方法,实现简单,原理清晰,居家旅行必备,你值得一试,或者加入我们团队一起试试其他方法,我们在折腾的事情有:对话系统,智能客服,知识图谱,语义理解,信息流,搜索排序……凡所应有,无所不有。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

?

可思yabo88滚球sykv.com

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?

关于我们?? 免责声明?? 广告合作?? 版权声明?? 联系方式?? 原创投稿?? 网站地图??

Copyright?2005-2019 Sykv.com 可思yabo88滚球 版权所有 ?? ICP备案:京ICP备14056871号

人工智能资讯?? 人工智能资讯?? 人工智能资讯?? 人工智能资讯

?扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭