由阿里云天池倾力打造的AI技术学习图谱,配套有免费算力、珍稀数据集,钉钉群答疑等资源和服务,助力学习者在实践中掌握AI知识。
弹性计算技术图谱——阿里云技术图谱——
学习对象
1.两江数字经济产业园各企业;
.计算机科学、软件工程等领域的软件工程师和大学生
学习方式
在线学习
学习时长:课时
内容来源
内容由阿里云大学免费提供
SQL训练营——阿里云技术图谱——
01
机器学习算法(一):基于逻辑回归的分类预
机器学习算法(一):基于逻辑回归的分类预测1逻辑回归的介绍和应用1.1逻辑回归的介绍逻辑回归(Logisticregression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高1.1逻辑回归的应用逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。逻辑回归模型现在同样是很多分类算法的基础组件,比如分类任务中基于GBDT算法+LR逻辑回归实现的信用卡交易反欺诈,CTR(点击通过率)预估等,其好处在于输出值自然地落在0到1之间,并且有概率意义。模型清晰,有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器,所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线(基础水平)。说了这些逻辑回归的概念和应用,大家应该已经对其有所期待了吧,那么我们现在开始吧!!!学习目标了解逻辑回归的理论掌握逻辑回归的sklearn函数调用使用并将其运用到鸢尾花数据集预测代码流程Part1Demo实践Step1:库函数导入Step:模型训练Step:模型参数查看Step4:数据和模型可视化Step5:模型预测Part基于鸢尾花(iris)数据集的逻辑回归分类实践Step1:库函数导入Step:数据读取/载入Step:数据信息简单查看Step4:可视化描述Step5:利用逻辑回归模型在二分类上进行训练和预测Step5:利用逻辑回归模型在三分类(多分类)上进行训练和预测0
机器学习-XGBoost1.实验室介绍1.1XGBoost的介绍XGBoost是年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度,在一段时间内成为了国内外数据挖掘、机器学习领域中的大规模杀伤性武器。更重要的是,XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲,XGBoost提供的可扩展性,可移植性与准确性推动了机器学习计算限制的上限,该系统在单台机器上运行速度比当时流行解决方案快十倍以上,甚至在分布式系统中可以处理十亿级的数据。XGBoost的主要优点:简单易用。相对其他机器学习库,用户可以轻松使用XGBoost并获得相当不错的效果。高效可扩展。在处理大规模数据集时速度快效果好,对内存等硬件资源要求不高。鲁棒性强。相对于深度学习模型不需要精细调参便能取得接近的效果。XGBoost内部实现提升树模型,可以自动处理缺失值。XGBoost的主要缺点:相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先XGBoost。1.XGboost的应用XGBoost在机器学习与数据挖掘领域有着极为广泛的应用。据统计在年Kaggle平台上9个获奖方案中,17只队伍使用了XGBoost;在年KDD-Cup中,前十名的队伍均使用了XGBoost,且集成其他模型比不上调节XGBoost的参数所带来的提升。这些实实在在的例子都表明,XGBoost在各种问题上都可以取得非常好的效果。同时,XGBoost还被成功应用在工业界与学术界的各种问题中。例如商店销售额预测、高能物理事件分类、web文本分类;用户行为预测、运动检测、广告点击率预测、恶意软件分类、灾害风险预测、在线课程退学率预测。虽然领域相关的数据分析和特性工程在这些解决方案中也发挥了重要作用,但学习者与实践者对XGBoost的一致选择表明了这一软件包的影响力与重要性。.实验室手册.1学习目标了解XGBoost的参数与相关知识掌握XGBoost的Python调用并将其运用到天气数据集预测
.代码流程Part1基于天气数据集的XGBoost分类实践Step1:库函数导入Step:数据读取/载入Step:数据信息简单查看Step4:可视化描述Step5:对离散变量进行编码Step6:利用XGBoost进行训练与预测Step7:利用XGBoost进行特征选择Step8:通过调整参数获得更好的效果0
机器学习-LightGBM1.实验室介绍1.1LightGBM的介绍LightGBM是年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,由年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT(梯度提升决策树)算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的Light所蕴含的那样,LightGBM在大规模数据集上跑起来更加优雅轻盈,一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。
LightGBM的主要优点:简单易用。提供了主流的Python\C++\R语言接口,用户可以轻松使用LightGBM建模并获得相当不错的效果。高效可扩展。在处理大规模数据集时高效迅速、高准确度,对内存等硬件资源要求不高。鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。LightGBM直接支持缺失值与类别特征,无需对数据额外进行特殊处理
LightGBM的主要缺点:相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先LightGBM。1.LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计LightGBM模型自到年在Kaggle平台上累积获得数据竞赛前三名三十余次,其中包括CIKMAnalytiCup、IEEEFraudDetection等知名竞赛。这些竞赛来源于各行各业的真实业务,这些竞赛成绩表明LightGBM具有很好的可扩展性,在各类不同问题上都可以取得非常好的效果。同时,LightGBM还被成功应用在工业界与学术界的各种问题中。例如金融风控、购买行为识别、交通流量预测、环境声音分类、基因分类、生物成分分析等诸多领域。虽然领域相关的数据分析和特性工程在这些解决方案中也发挥了重要作用,但学习者与实践者对LightGBM的一致选择表明了这一软件包的影响力与重要性。.实验室手册.1学习目标了解LightGBM的参数与相关知识掌握LightGBM的Python调用并将其运用到英雄联盟游戏胜负预测数据集上.代码流程Part1基于英雄联盟数据集的LightGBM分类实践Step1:库函数导入Step:数据读取/载入Step:数据信息简单查看Step4:可视化描述Step5:利用LightGBM进行训练与预测Step6:利用LightGBM进行特征选择Step7:通过调整参数获得更好的效果SQL训练营——阿里云技术图谱——