教育教学

当前位置: 首页 -> 教育教学 -> 教学工作 -> 人才培养 -> 本科生培养 -> 教学大纲 -> 正文

《数据挖掘》教学大纲

信息来源: 发布日期:2015-09-25

《数据挖掘》教学大纲

课程名称:

数据挖掘

课程编号:

408402

436415

适用专业:

计算机科学与技术

软件工程

课程类别:

专业任选课

专业任选课

课程学分:

3

3

总学时:

48

48

其中:理论学时

36

36

实验学时

12

12

先修课程:

高级语言程序设计、离散数学、概率与数理统计、数据库原理

一、课程的性质、目的与任务

数据挖掘是综合了机器学习、统计和数据库的一门现代计算机技术,旨在发现海量数据中的模型与模式,具有巨大的应用前景。在很多重要的领域,数据挖掘都发挥着积极的作用。因此这门课程是计算机专业及相关专业的重要课程之一。

《数据挖掘》课程是计科专业与软工专业的专业任选课程,通过本课程的学习使学生掌握数据挖掘的基本概念,了解数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法,初步掌握数据挖掘的算法。使同学们在学习本课程后,能实现简单的数据挖掘算法编程,了解实现数据挖掘的具体操作。

通过本课程的学习,要求学生达到:

1.了解数据挖掘技术的整体概貌

2.了解数据挖掘技术的主要应用及当前的研究热点问题和发展方向

3.掌握最基本的概念、算法原理和技术方法

二、课程教学基本内容与要求

第一章 引言

(一)基本教学内容

1.1什么激发了数据挖掘,为什么它是重要的

1.2什么是数据挖掘

1.3对何种数据进行挖掘

1.4数据挖掘功能——可以挖掘什么类型的模式

1.5所有模式都是有趣的吗

1.6数据挖掘系统的分类

1.9数据挖掘的主要问题

(二)基本要求

教学目的:掌握数据挖掘的基本概念、理解数据挖掘的形成与发展过程、了解数据挖掘的数据对象、了解数据挖掘所具有的功能。

教学重点:重点讲解数据挖掘的功能

教学难点:数据挖掘功能

第二章 数据预处理

(一)基本教学内容

2.1 为什么要预处理数据

2.2 描述性数据汇总

2.3 数据清理

2.4 数据集成和变换

2.5 数据归约

2.6 数据离散化和概念分层产生

(二)基本要求

教学目的:了解数据预处理的原因,掌握数据预处理的方法。

教学重点:数据清理、数据集成和变换、数据归约、数据离散化和概念分层

教学难点:数据归约、数据离散化和概念分层

第三章 数据仓库与OLAP技术概述

(一)基本教学内容

3.1 什么是数据仓库

3.2 多维数据模型

3.3 数据仓库的系统结构

3.4 数据仓库实现

3.5 从数据仓库到数据挖掘

(二)基本要求

教学目的:理解数据仓库的概念,了解数据仓库的多维数据模型,理解数据仓库的系统结构,掌握数据立方体的有效计算。

教学重点:多维数据模型

教学难点:数据立方体的有效计算

第四章 数据立方体计算与数据泛化

(一)基本教学内容

4.1 数据立方体计算的有效方法

4.2 数据立方体和OLAP技术的进一步发展

4.3 面向属性的归纳——另一种数据泛化和概念描述方法

(二)基本要求

教学目的:了解数据立方体计算的有效方法,了解数据立方体和OLAP技术的进一步发展,理解面向属性归纳的方法。

教学重点:数据立方体计算的有效方法

教学难点:完全立方体计算的多路数组聚集

第五章 挖掘频繁模式、关联和相关

(一)基本教学内容

5.1 基本概念和路线图

5.2 有效的和可伸缩的频繁项集挖掘

5.3 挖掘各种类型的关联规则

5.4 由关联挖掘到相关分析

(二)基本要求

教学目的:理解关联规则的相关概念,掌握频繁项集挖掘的方法,理解关联挖掘的相关性分析。

教学重点:频繁项集挖掘的方法。

教学难点:Apriori算法。

第六章 分类和预测

(一)基本教学内容

6.1 什么是分类,什么是预测

6.2 关于分类和预测的问题

6.3 用决策树归纳分类

6.4 贝叶斯分类

6.5 基于规则的分类

6.6 用后向传播分类

6.11预测

6.12准确率和误差的度量

6.13评估分类器或预测器的准确率

6.14系综方法——提高准确率

(二)基本要求

教学目的:掌握分类和预测的基本概念和问题,掌握决策树分类的方法,理解基于规则分类的方法,了解贝叶斯分类和后向传播分类方法,掌握预测的方法。

教学重点:决策树分类

教学难点:贝叶斯分类和后向传播分类

第七章 聚类分析

(一)基本教学内容

7.1 什么是聚类分析

7.2 聚类分析中的数据类型

7.3 主要聚类方法的分类

7.4 划分方法

7.5 层次方法

7.6 基于密度的方法

7.11离群点分析

(二)基本要求

教学目的:掌握聚类分析的基本概念和数据类型,理解聚类方法中的典型划分方法:k均值和k中心点,并了解多种其他的聚类方法,了解离群点的检测方法。

教学重点:k均值

教学难点:k均值和k中心点

三、课程各章节学时分配

序号

内容

理论学时

实验学时

计科

软工

计科

软工

1

引言

2

2

2

2

2

数据预处理

4

4

3

数据仓库与OLAP技术概述

4

4

4

数据立方体计算与数据泛化

6

6

5

挖掘频繁模式、关联和相关

6

6

4

4

6

分类和预测

8

8

2

2

7

聚类分析

6

6

4

4

合计

36

36

12

12

四、本课程课外学习与修学指导

由于该课程涉及的技术都是目前比较热门的技术,内容复杂,难度较大,且具有很强的理论性和实践性,所以要学好本课程,必须做到理论与实践紧密结合,才能达到较好的学习效果。要求学生多参阅相关书籍和资料,多上机实验,掌握数据挖掘的基本功能、主要算法及其实现过程。

五、本课程考核方式及成绩评定标准

考核方式:考查,开卷

成绩评定方法:本课程的考核是平时成绩和期终考试成绩相结合,理论成绩与实验成绩相结合。具体比例为:上课出勤、作业占10%,实验占20%,期末考查成绩占70%。

其中期未考试总分100分,基础题占50%,中等难度题占40%,较难题占10%。考试题型主要有:选择题、填空题、判断题、简答题、计算题、论述题、综合应用题等。

六、教材及参考书

教材:《数据挖掘:概念与技术》(原书第2版),Jiawei Han, Micheline Kamber著,范明,孟小峰译,机械工业出版社,2011年

主要参考书:

[1]《数据仓库与数据挖掘》安淑芝等编著,清华大学出版社,2005年8月

大纲撰写人:彭剑

大纲审阅人:罗如为

教学副主任:易叶青

编写日期:2012.6