余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

数据和算法的相爱相杀(三):常见的数据分类算法

xiyangw 2023-09-17 16:29 7 浏览 0 评论

以下是数据与算法相爱相杀的第三篇,常见的数据分类算法。

数据分类在业务中应用无处不在,如果我们要开展多元化的服务、差异化的营销,就需要对用户群体进行分类,比如:通过对用户收入的分类,我们找到高净值人群,我们可以直接向他们推荐我们的产品或者VIP服务。

如果我们还有年龄的数据,我们可以向20-50岁之间的高净值人群推荐我们职场的礼包,沿着这样的路径往前走,我们发现我们可以将更多维度的数据加入其中,我们的划分的群体更加具体,我们对他们可以采取的措施也可以更加切合、得当。

如果数据量达到我们肉体难以cover的地步,基于大数据量的分类算法就有了用武之地了。数据分类是一种典型的监督学习,需要我们给出分类结果,然后建立起输入和输出之间的模型。

和上一篇一样,我们不讲各个算法的数学原理和编程方式,作为给PM看的文章,我将各个算法原理讲解清楚,以及算法的应用的场景、优点缺点、注意事项。各位如果想进一步了解可以留言,或者网上找些材料。

数据分类可以用到算法比较多样,比如:决策树、贝叶斯网络、神经网络、遗传算法等,不同的场景下不同的算法有不同的效用。但是分析的过程无外乎训练过程、识别过程两种。

  • 训练过程:是从数据库中找到训练集,然后从训练集中进行特征选取,对分类模型进行训练,然后形成分类器。
  • 识别过程:是先将待识别的新样本进行特征选取,然后利用分类器进行分类识别。

基于贝叶斯的数据分类

贝叶斯公式想必大家都比较了解,两百年前英国数学家贝叶斯的成果,如今机器学习里很多都是将贝叶斯公式作为基础原理。

朴素的贝叶斯就是揭示了,假如事件A发生的概率已知,事件B发生的概率已知,事件B在事件A发生的情况下发生的概率已知,那我们就知道事件A在事件B发生的情况下概率是多少。

公式如下:

P(A|B)=P(B|A) *P(A) / P(B)

在实际应用过程中,A一般是我们想要预测的概率,A包含的情况我们是清楚地,比如:预测游戏中预测是否有辱骂别人(有 或 无),B即是某一个辱骂词汇的出现的概率,假如给我们一定的语料,我们就可以得出在某名玩家打出某个词汇的时候,他被判定为辱骂的概率,如果我们设定一个阈值,我们就可以对其发出辱骂警告了。

通常我们进行一个企业级的分类流程需要经过数据准备、分类器训练、分类器评估、分类识别。

  1. 数据准备:一般是语料库或者其他原材料的准备,这个阶段主要需要人工对语料进行分类,分类的清楚,合理对分类器的质量至关重要。
  2. 分类器训练:这个阶段有计算机完成,主要是计算各个属性(事件包含的集),结果的概率,以及最终该属性下某个结果的概率。
  3. 分类器评估:我们一般留出语料库中20%的数据量做分类器的评估,常用的评估指标包括正确率、精准度、召回率、错误率,通过人工去验证判断是否准确,并进行调整。
  4. 分类识别:以上的过程完成后,这个分类器就可以开展实际的工作了。

二、基于adaboost的数据分类

adaboost是一种组合型算法,它会先产生一定数量的弱分类,然后将弱分类按权重组合成强分类,即最终的分类算法。adaboost算法可以用来处理分类问题,回归问题等,分类方法比较精确的算法,是监督学习的一种。

它的基本原理是:先对初始数据进行训练,找到阈值,生成模型(弱分类器),然后对分类对的降低其权重,分类错误的提升其权重。然后再次训练模型,选定权重相加最小的,直到达到预定值。

adaboost在人脸识别、表情识别等场景中有较高的分析准确性,其过程较为复杂,这里不展开讲,有想进一步了解的可以网上查阅资料或者微信我。

除了以上两种常用的分类算法之外还有向量机的分类算法、基于k邻近算法等多种算法,都是比较常见的分类方法。

以上,欢迎交流,欢迎拍砖。

相关推荐

如何在Asterisk环境下实现SIP PUSH功能
如何在Asterisk环境下实现SIP PUSH功能

很多手机不能支持手机APP一直在后台运行,这样的话,手机耗电相当厉害。如果APP处于休眠状态的话,电话呼入以后就会出现漏接的问题。为了保证手机app那个正常接...

2023-09-27 18:09 xiyangw

Asterisk签约2016深圳国际物联网展
Asterisk签约2016深圳国际物联网展

8月18日-20日,由国际物联网贸易与应用促进会主办,深圳物联传媒有限公司承办的2016深圳国际物联网与智慧中国博览会将在深圳会展中心(2、3、4号馆)盛大举行...

2023-09-27 18:08 xiyangw

学战都市Asterisk第二卷银绮觉醒 第三章 疾风刃雷
学战都市Asterisk第二卷银绮觉醒 第三章 疾风刃雷

第三章疾风刃雷「——就是这样,你有没有关于他们的情报?」「哦哦,原来如此,阿勒坎特的人来到我们学园啊。」隔天午休,在一年三班的教室。绫斗向英士郎打听昨天遇见的...

2023-09-27 18:08 xiyangw

《学战都市Asterisk》公开首个手机游戏!
《学战都市Asterisk》公开首个手机游戏!

BANDAINAMCOEntertainment在3月28日发表了《学战都市Asterisk》(学戦都市アスタリスク)的首个面向智能手机的游戏《学战都市As...

2023-09-27 18:07 xiyangw

学战都市Asterisk第一卷姫焰邂逅 第六章 两人的假日
学战都市Asterisk第一卷姫焰邂逅 第六章 两人的假日

第六章两人的假日「久等了,尤莉丝。有让你等很久吗……」「没有,我也才刚抵达而已。能确实在约定时间前抵达,的确值得褒奖——还有你怎么一副目瞪口呆的模样。你不知道...

2023-09-27 18:07 xiyangw

发布asterisk-18.0.0-rc1

发布asterisk-18.0.0-rc1发布,asterisk-18将作为asterisk的LTS版本会逐步推出稳定版本。用户可以从官方下载测试。...

完整Debug工具排查Asterisk和FreePBX
完整Debug工具排查Asterisk和FreePBX

Asterisk或者FreePBX出现故障如何排查是工程师最基本的技能之一。如何排查复杂的底层问题是技术人员经常遇到的问题,如果技术人员能够提供非常完整的deb...

2023-09-27 18:06 xiyangw

分享:基于Asterisk和TTS/ASR语音识别配置示例
分享:基于Asterisk和TTS/ASR语音识别配置示例

智能客服的开发基于ASR和TTS的处理是一个非常关键的技术点。通过软交换平台直接和一些大公司的ASR和TTS接口进行交互,通过媒体服务器的拨号规则的处理,可以实...

2023-09-27 18:06 xiyangw

公安部公布十大侵犯著作权典型案件

中新网扬州4月29日电(葛勇郭亚楠徐珊珊)公安部29日公布十大侵犯著作权典型案件。具体如下:一、江苏扬州马某予等人侵犯著作权案。2019年3月,根据公安部“2?15”系列专案交办线索,江苏扬州公安...

暗夜破晓mu兑换码礼包,新手开服搬砖攻略全职业加点推荐
暗夜破晓mu兑换码礼包,新手开服搬砖攻略全职业加点推荐

  暗夜破晓是一款奇迹类型的手游,那么本篇文章小编也是为大家带来了暗夜破晓这款游戏,在这款游戏中,是有非常多的兑换码的,有效的礼包激活码,是每个玩家都是能够领取...

2023-09-27 18:05 xiyangw

奇迹暖暖收集梦幻下午茶套装方法介绍
奇迹暖暖收集梦幻下午茶套装方法介绍

奇迹暖暖收集梦幻下午茶套装方法介绍,介绍奇迹暖暖收集梦幻下午茶套装方法。希望这篇奇迹暖暖收集梦幻下午茶套装方法介绍,能帮助到各位正在玩奇迹暖暖的玩家朋友们!奇迹...

2023-09-27 18:04 xiyangw

远古传说首测FAQ汇总 远古传说问答大全
远古传说首测FAQ汇总 远古传说问答大全

作为2015年暗黑系MMORPG的扛鼎之作,远古传说在开测后涌入了极多的玩家,关于游戏黑屏闪退、游戏模式的很多问题也暴露了出来,不过玩家不用担心,这只是游戏的首...

2023-09-27 18:04 xiyangw

搞趣网:梦三国手游如何正确理解黄忠的技能 技能效果
搞趣网:梦三国手游如何正确理解黄忠的技能 技能效果

梦三国手游如何正确理解黄忠的技能?梦三国手游黄忠的技能怎么正确使用?梦三国手游如何正确理解黄忠的技能效果。下面就和小编一起来看看吧。梦三国手游如何正确理解黄忠的...

2023-09-27 18:04 xiyangw

奇迹暖暖云端帝国枫千叶女忍套装介绍
奇迹暖暖云端帝国枫千叶女忍套装介绍

奇迹暖暖云端帝国枫千叶女忍套装,介绍了奇迹暖暖枫千叶女忍套装,奇迹暖暖云端帝国枫千叶女忍套装怎么获得,希望这篇奇迹暖暖云端帝国枫千叶女忍套装介绍能够帮助到大家!...

2023-09-27 18:04 xiyangw

搞趣网:梦三国手游12月23日周免英雄更换公告
搞趣网:梦三国手游12月23日周免英雄更换公告

今天搞趣网小编为大家带来梦三国手游12月23日周免英雄更换公告,下面小编为大家详细讲解梦三国手游12月23日周免英雄更换公告,希望对大家有所帮助。以下是12月2...

2023-09-27 18:04 xiyangw

取消回复欢迎 发表评论: