全球焦点!决策树算法是什么?决策树的定义与核心思想
一、决策树原理
决策树是一种比较常用的分类算法,理解起来也相对容易。所谓决策树分类就是用决策条件构成的一个树状预测模型,通过这个模型,我们可以对未知类别的数据进行分类。
二、决策树的定义与核心思想
(资料图)
决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。 决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。
三、决策树构造
决策树的构造过程不依赖领域知识,它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。
3.1构造决策树的关键步骤——分裂属性
所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。 分裂属性分为三种不同的情况:
属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试,按照“属于此子集”和“不属于此子集”分成两个分支。属性是连续值。此时确定一个值作为分裂点split point,按照>split point和<=split point生成两个分支。构造决策树的关键性内容是进行属性选择度量,属性选择度量是一种选择分裂准则,是将给定了类标记的训练集合划分,“最好”地分成个体类的启发式方法,它决定了拓扑结构及分裂点split point的选择。 属性选择度量算法有很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略,常用的算法有ID3和C4.5。 在实际构造决策树时,通常要进行剪枝,这是为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种:先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。
3.2 交叉验证
因为在实际的训练中,训练的结果对于训练集的拟合程度通常还是挺好的(初试条件敏感),但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练,而是分出一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证。
3.3函数介绍
(1)train_test_split函数 train_test_split来自sklearn.model_selection,是交叉验证中常用的函数,它能从样本中按比例随机选取训练集和测试集。其用法如下: X_train, X_test, y_train, y_test = cross_validation.train_test_split(train_data, train_target, test_size=0.25, random_state=None) 参数解释: . train_data: 所要划分的样本特征集。 . train_target: 所要划分的样本结果。 . test_size: 样本占比,如果是整数的话就是样本的数量。 . random_state: 是随机数的种子 (2)tree.DecisionTreeClassifier函数 DecisionTreeClassifier函数用于创建决策树分类器。其用法如下: clf = tree.DecisionTreeClassifier() 常用参数解释: . criterion: string类型,可选(默认为"gini")。指定使用哪种方法衡量分类的质量。支持的标准有"gini"代表的是Gini impurity(不纯度)与"entropy"代表的是information gain(信息增益)。 . splitter: string类型,可选(默认为"best")。指定在节点中选择分类的策略。支持的策略有"best",选择最好的分类,“random"选择最好的随机分类。 . max_depth: int or None,可选(默认为"None”)。表示树的最大深度。 . min_samples_split: int,float,可选(默认为2)。一个内部节点需要的最少的样本数。 . max_features: int,float,string or None类型,可选(默认为None)。在进行分类时需要考虑的特征数。 . random_state: 可为int类型,RandomState 实例或None,可选(默认为"None")。 如果是int,random_state是随机数字发生器的种子;如果是RandomState,random_state是随机数字发生器,如果是None,随机数字发生器是np.random使用的RandomState instance.
四、编写线性回归算法代码
4.1 基于鸢尾花数据集实现决策树分类 启动环境后,登录到服务器,编辑代码文件: 1.导入用到的库 2.加载数据集 3.构建模型 4.模型评估 4.2基于癌症数据集实现决策树分类 1.导入数据集 2.提取数据
3.划分数据集
4.构建模型 5.模型评估
6.决策树的属性
7.绘图 运行结果:
标签:
相关推荐:
最新新闻:
- 全球焦点!决策树算法是什么?决策树的定义与核心思想
- 热头条丨电动剃须刀哪个牌子好?最新的剃须刀排行榜
- 图层蒙版怎么用?PS2/11添加蒙版的图层 天天微资讯
- 如何上传文件到服务器?上传文件到服务器的方法_世界快看
- 微软获得访问索尼文件授权:FTC回应详情 即时焦点
- winsockfix无法修复winsock怎么办?winsock和TCP修复工具|焦点讯息
- 笔记本60hz和144hz的区别是什么?60Hz和144Hz的屏幕的区别
- qq群如何设置群机器人?qq群设置群机器人方法:资讯
- 《足球经理2023》大型数据更新上线 依照现实调整球员能力水平
- 苹果手机怎么安装爱思助手?苹果手机安装爱思助手的五大方法
- flash是什么意思?世界上第一个商用的二维动画软件
- 怎么阻止骚扰电话?屏蔽电话方法和步骤
- 基于jsp+servlet+pojo+mysql的贴吧系统 java项目源码介绍
- 勒索病毒是什么?中病毒的原因有哪些?
- WPS和Office有什么区别?有哪些优势?_世界头条
- 《生化危机4:重制版》阿什莉不再碍事:就像真人同伴一样_焦点速讯
- 当前简讯:计算机语言元素周期表——3D版化学元素列表
- 如何查询每个岗位的中位数位置?如何分析中位数?_环球热讯
- 决策树算法是什么?决策树的定义与核心思想 视焦点讯
- WEG的完整形式是什么?WEG的完整形式介绍_世界快看
- 键盘上三个灯分别是什么?Num Lock键的作用介绍
- 新资讯:容积式换热器有哪些类型?容积式换热器分类介绍
- 【环球热闻】Kitten-少儿编程的首选工具 Kitten-少儿编程详情介绍
- 今日报丨AI论文中的novelty如何评价?详情介绍
- 【WOTD】remittance 释义/词源/示例 词源词根演化
- 为什么用Thread.Sleep函数把线程挂起时间?关于Thread.sleep的两个问题_世界时讯
- 幻想策略游戏《奇迹时代4》官方剧情宣传片
- 世界热讯:a0-a4纸尺寸大小是多少?a0-a3纸的尺寸具体大小介绍
- Statement、PreparedStatement、CallableStatement有什么区别?三者区别的详情介绍
- 【世界新视野】增值业务是什么意思?增值电信业务有哪些特征?
- iPhone 14Plus遇冷:不降价就买安卓!
- 怎样删除电话联系人?批量删除联系人的详细介绍
- 天天新消息丨如何搭建VIE架构?VIE架构如何实现海外上市?
- KL散度、交叉熵、概率分布的差异是什么?时间序列中的概率分布
- struts的框架介绍 Struts2框架的大致处理流程-世界新要闻
- 马斯克:10万亿美元“改造地球” 专家说不靠谱
- 环球观天下!PMA的应用是什么?基于PMA-qPCR的生物学检测方法
- 基于jsp+servlet+pojo+mysql的贴吧系统 java项目源码介绍_全球观天下
- 台式电脑怎么攒机最优?台式电脑攒机最省钱方案
- 大白菜u盘怎么装系统?大白菜重装系统步骤图 当前热闻
- 借呗怎么借钱?借呗借钱详细介绍
- 无线路由器频道带宽如何选择?20M和40M有哪些区别?
- NTC热敏电阻的采集方法有哪些?NTC热敏电阻温度采集方法介绍
- 什么是扁平化设计?扁平化时代之后会怎样?
- Log4j2源码解析:同步写、异步写原理、中间技术思考-天天看热讯
- 电介质和导体的区别是什么?电介质和导体的区别介绍
- 中兴通讯智慧家庭发布路由器新品小方糖 助推家庭网络千兆带宽普及 世界时讯
- Applewatch瑟瑟发抖!卡西欧推出G-SQUAD GBD-H2000智能手表 当前讯息
- iPhone中国换购价普降 iPhone 13 Pro折换价低了400元
- 每日快讯!大学老师撞脸《狂飙》高启盛 这压迫感谁不听课?
- 《蜘蛛侠:平行宇宙2》新剧照曝光 蜘蛛侠2099亮相 格温紧随其后|环球新视野
- 观天下!卡普空3月10日播出直播节目 将发布怪物猎人生化危机4等游戏新情报
- 今日热讯:《堡垒之夜》将推出《生化危机》里昂、克莱尔联动皮肤
- 《生化危机4:重制版》新演示和截图 里昂拯救黑丝碍事梨|当前滚动
- 屏下Face ID!iPhone 16 Pro大升级 报资讯
- 英特尔持续深耕数据中心渠道生态,聚合力赢未来 当前视点
- ALIENWARE外星人发布新款外设,扩展其不断增长的生态系统_前沿资讯
- Mobileye荣获两大行业研究机构“自动驾驶领导者”评级-天天速看料
- iPhone 14 Pro同款“灵动岛”?realme C55手机官宣将于3月7日发布
- 中国载人航天总师:航天员见到外星人算星际合作|世界焦点
- 世界消息!《生化危机4》重制vs原版刀战对比:玩家实操机会更多!
- 全球即时看!戴尔科技集团公布2023财年第四财季及全年财报
- 卖不动了!iPhone销量1月下跌11% 世界快播报
- 《黎明杀机》真人电影制作中 温子仁加盟|环球快看点
- 《地狱之刃2》开发团队前后两次到冰岛实地取景
- 观天下!光荣版怪猎《狂野之心》分享赞誉宣传片
- 消息称动视收购案或将得到欧盟监管机构批准
- 世界消息!抄底价!512GB M.2固态184元到手
- 猫爬架也不安全 你做好这些准备了吗?
- 【当前独家】OpenAI允许App内嵌调用ChatGPT
- 人工智能加持?曝微软正在准备推出Windows 12|全球热闻
- 女神节特惠!罗技爆款鼠标限时特惠229元
- 《FF16》宣发解禁!日本游戏店内摆满PS5实体盘盒
- 开放世界冒险《Tchia》PC配置公布 3月21日登陆Epic-当前快播
- 【独家焦点】《生化危机4:重制版》7分钟演示 刀战Jack Krauser
- 柯洁丢掉中国围棋等级分榜首 曾霸榜7年多|环球动态
- 最懂三国的游戏公司,并不在中国:当前快播
- 《卧龙:苍天陨落》M站评分解禁 均分81:微资讯
- 俞敏洪称不太喜欢《狂飙》:民营企业家没一个好人
- 焦点快看:《卧龙》联动《永劫无间》 宁红夜、季沧海参战新DLC
- 卧龙制作人:联动永劫无间!期待吸引中国动作游戏玩家
- 歹徒劫走汽车和小孩 大众称定位车辆要先续费被谴责|环球今亮点
- 特斯拉最新宏图第三章:新工厂、新能源计划、新机器人 快资讯
- Garmin佳明新一代Forerunner 265和Forerunner 965 GPS运动智能腕表闪亮登场
- 悦刻电子烟被罚20万:其广告涉嫌违反广告法!