QQ在线客服
免费咨询热线
400-615-1233
工作时间-工作日
8:30-17:30
立封
平封

Python数据挖掘技术

以CRISP行业标准流程为指导
  • 类  别:大数据与云计算
  • 书  名:Python数据挖掘技术
  • 主  编:孙玉荣 张佳
  • 定  价:49.8
  • 开  本:大16开
  • 印刷方式:双色
  • 页  数:244
  • 时  间:2023年8月
  • 出  版  社:上海交通大学出版社
  • 书  号:978-7-313-29113-4

内容摘要

        本书主要介绍数据挖掘的基本技术和应用,全书共分11章,主要内容包括数据挖掘概述、Python数据挖掘基础、数据获取与预处理技术、数据可视化、关联规则、决策树算法、朴素贝叶斯分类算法、逻辑回归算法、K-近邻算法、聚类分析算法、主成分分析。
        本书适合作为高等教育计算机类、工商管理类相关专业数据挖掘课程的教材,也可作为数据分析与挖掘技术人员的参考用书。

目录

第1章 数据挖掘概述
 1.1数据治理
  1.1.1数据储量
  1.1.2各国数据治理的战略地位
 1.2数据挖掘与机器学习
  1.2.1两者概念区分
  1.2.2两者间的联系
 1.3数据挖掘技术
  1.3.1数据挖掘本质
  1.3.2数据挖掘任务
 1.4数据挖掘过程模型
  1.4.19步模型
  1.4.2CRISP-DM模型
 1.5数据挖掘工具
 1.6模型构建中的几个关键问题
 本章小结
 本章习题
第2章 Python数据挖掘基础
 2.1搭建Python开发环境
  2.1.1Python第三方库介绍
  2.1.2安装Anaconda
 2.2Python数据类型
  2.2.1数字类型
  2.2.2序列容器
  2.2.3非序列容器
  2.2.4数据类型的嵌套
 2.3Python程序控制结构
 2.4NumPy科学计算包
  2.4.1NumPy数据类型、视图和副本
  2.4.2NumPy数组基础
  2.4.3NumPy数组操作介绍
 2.5pandas数据分析包
  2.5.1pandas核心数据结构——Series
  2.5.2pandas核心数据结构——DataFrame
  2.5.3数据分析操作基础
 本章小结
 本章习题
第3章 数据获取与预处理技术
 3.1数据
  3.1.1数据定义
  3.1.2数据分类
 3.2数据源
  3.2.1数据库数据
  3.2.2数据仓库数据
  3.2.3事务数据
  3.2.4数据矩阵
  3.2.5图状结构数据
  3.2.6时序数据
  3.2.7其他类型数据
 3.3数据收集
  3.3.1构造数据仓库
  3.3.2网络爬虫技术
  3.3.3数据集网站
 3.4数据质量问题
  3.4.1数据完整性问题
  3.4.2异常数据
  3.4.3数据的不一致
  3.4.4多维度数据处理
  3.4.5数据量太少
  3.4.6数据量过多
 3.5数据预处理
  3.5.1数据清洗
  3.5.2数据集成
  3.5.3数据变换
  3.5.4数据归约
 3.6数据安全
  3.6.1数据安全的战略地位
  3.6.2数据霸权
  3.6.3基础数据界定
  3.6.4责任和义务
  本章小结
 本章习题
第4章 数据可视化
 4.1数据可视化定义
 4.2常用的可视化工具
 4.3常见的可视化图形
  4.3.1散点图
  4.3.2箱形图
  4.3.3热力图
  4.3.4直方图
  4.3.5聚类谱系图
  4.3.6词云图
 4.4数据可视化与数据挖掘
 4.5Python数据可视化简介
  4.5.1Python绘图环境搭建
  4.5.2Matplotlib绘图操作方式
  4.5.3matplotlib.pyplot模块的绘图程序设计方式
  4.5.4Matplotlib图层结构
  4.5.5图形绘制流程
 本章小结
 本章习题
第5章 关联规则
 5.1关联规则基础知识
  5.1.1基本概念
  5.1.2数据的离散化
 5.2Apriori算法原理
  5.2.1关联规则的评价参数
  5.2.2规则的分类
  5.2.3Apriori算法中的两个关键问题
  5.2.4Apriori算法描述及其执行流程
 5.3Python应用案例
  5.3.1应用案例代码实现
  5.3.2生成的规则
  5.3.3关联规则的价值衡量
 5.4关联规则应用讨论
 本章小结
 本章习题
第6章 决策树算法
 6.1决策树算法基础知识
  6.1.1基本概念
  6.1.2构造决策树的关键问题
 6.2ID3算法原理
  6.2.1信息增益与属性选择
  6.2.2ID3算法描述
  6.2.3ID3算法的优缺点
 6.3决策树的优化
  6.3.1拟合能力和泛化能力
  6.3.2剪枝策略介绍
 6.4决策树模型性能评价
  6.4.1混淆矩阵
  6.4.2几个常用评估指标的计算
 6.5ID3算法应用案例及Python代码实现
  6.5.1应用案例
  6.5.2代码实现
 本章小结
 本章习题
第7章 朴素贝叶斯分类算法
 7.1贝叶斯算法基础知识
  7.1.1贝叶斯决策理论
  7.1.2先验概率和后验概率
  7.1.3条件概率
  7.1.4使用条件概率分类
 7.2朴素贝叶斯分类算法
  7.2.1朴素的由来
  7.2.2关键问题
  7.2.3算法原理
  7.2.4朴素贝叶斯分类算法的三种类型
 7.3朴素贝叶斯分类算法的优化
  7.3.1不完全数据集
  7.3.2连续型数值型属性
  7.3.3属性之间的独立性
 7.4算法的Python代码实现
  7.4.1准备工作
  7.4.2先验概率估计
  7.4.3求出类条件概率并计算可能性
  7.4.4构建分类器并进行检验
 7.5算法应用案例
  7.5.1代码实现
  7.5.2可视化效果展示
 7.6朴素贝叶斯分类算法的优点和缺点
  7.6.1优点
  7.6.2缺点
 本章小结
 本章习题
第8章 逻辑回归算法
 8.1回归基础知识
  8.1.1回归概念分类
  8.1.2线性回归和逻辑回归
  8.1.3线性回归
  8.1.4二分类
  8.1.5多分类
 8.2逻辑回归原理
  8.2.1逻辑回归的关键问题
  8.2.2算法核心内容
 8.3逻辑回归算法的优化
  8.3.1正则化策略
  8.3.2多类别逻辑回归算法
 8.4逻辑回归算法的性能评价
 8.5Python代码实现
 8.6算法应用案例
  8.6.1代码实现
  8.6.2可视化效果展示
 8.7逻辑回归算法应用场景探讨
 8.8逻辑回归算法的优点和缺点
 本章小结
 本章习题
第9章 KNN算法
 9.1KNN算法基础知识
  9.1.1基本概念
  9.1.2KNN算法的关键问题
 9.2KNN算法原理
  9.2.1核心思想
  9.2.2算法流程
  9.2.3KD树求解分类过程
 9.3基于KD树的近邻算法
  9.3.1问题实例
  9.3.2算法实现
 9.4KNN算法的优缺点及其改进
  9.4.1优点
  9.4.2缺点
  9.4.3改进
 9.5KNN算法的应用场景
 本章小结
 本章习题
第10章 聚类分析算法
 10.1聚类分析算法基础知识
  10.1.1分类与聚类
  10.1.2聚类分析概述
  10.1.3聚类分析的两种类型
  10.1.4聚类分析的关键问题
  10.1.5聚类算法类型
 10.2相似性度量
  10.2.1距离度量相似性
  10.2.2相关系数度量相似性
 10.3原型聚类算法介绍
  10.3.1K均值聚类分析算法介绍
  10.3.2其他原型聚类算法介绍
 10.4K均值聚类分析算法的优化
  10.4.1后处理
  10.4.2二分K均值聚类分析算法
  10.4.3K均值++聚类分析算法
 10.5K均值聚类分析算法的代码复现
  10.5.1K均值聚类分析算法流程
  10.5.2Python代码
 10.6聚类分析算法实例应用
  10.6.1鸢尾花数据集聚类代码
  10.6.2效果展示
 10.7聚类性能度量
  10.7.1外部指标
  10.7.2内部指标
 10.8K均值聚类分析算法的优点和缺点
 本章小结
 本章习题
第11章 主成分分析
 11.1基础知识
  11.1.2与主成分分析相关的数学概念
  11.1.3主成分分析的关键问题
 11.2主成分分析的基本原理
  11.2.1主成分获取的理论基础
  11.2.2主成分的线性组合
  11.2.3主成分的求解过程
  11.2.4主成分的算法描述
 11.3主成分的作用与用途
  11.3.1主成分的作用
  11.3.2主成分的用途
 11.4主成分分析应用举例
  11.4.1降维处理
  11.4.2相关系数矩阵与协方差矩阵结果对比
 11.5主成分分析的Python代码实现
 11.6主成分分析的优点和缺点
  11.6.1优点
  11.6.2缺点
 本章小结
 本章习题
参考文献

主编信息

孙玉荣,中南林业科技大学副教授。

相关图书

  • Python数据分析与应用

    主编:吴涛 徐光侠 刘俊

    本书从实际应用出发,侧重对学生实践能力的培养。全书共分9章,内容包括数据分析基础、Python编程语言、数据分析过程、回归与预测

    ¥45
  • Python程序设计

    主编:金松林

    本书深入浅出地介绍了Python编程语言的基础知识及简单的数据处理技术。全书共分10章,主要内容包括初识Python,数据类型、变量与运

    ¥45