课程考核方式的说明

1、模式发现问题(占10%)

内容:TFP是一个从交易记录数据中挖掘前K个最频繁闭合项集的算法(论文题目:TFP: An efficient algorithm for mining top-k frequent closed itemsets,作者:J Wang, J Han, Y Lu, P Tzvetkov,期刊:IEEE Transactions on Knowledge and Data Engineering,  Vol. 17, No. 5, PP:652-663,软件包下载)。但它存在一个问题,即它挖掘的模式冗余度较大,而多样性不好(用户在使用TFP算法解决问题时抱怨“most patterns are very similar to each other”、“TFP finds a top pattern and also generates many similar looking patterns.”等 )。一个典型的TFP输出如下:

size 10 
17831 13155 38331 33155 33931 18331 16031 37831 13260 15960 support : 31
17831 13155 11460 38331 33155 18331 16031 37831 13260 15960 support : 24
size 11 
17831 13155 13931 38331 33155 33931 18331 16031 37831 13260 15960 support : 29
17831 13155 11460 38331 33155 33931 18331 16031 37831 13260 15960 support : 19
size 12 
17831 13155 14431 38331 33155 33931 18331 16031 37831 13260 34431 15960 support : 25
17831 13155 11460 13931 38331 33155 33931 18331 16031 37831 13260 15960 support : 17
size 13 
17831 13155 13931 14431 38331 33155 33931 18331 16031 37831 13260 34431 15960 support : 23
14131 13241 17831 34131 13155 38331 33155 18331 33241 16031 37831 13260 15960 support : 22
size 14 
17831 31460 13155 13931 38331 33155 33931 18331 16031 36031 37831 13260 15960 35960 support : 24 
size 16 
17831 31460 13155 13931 14431 38331 33155 33931 18331 16031 36031 37831 13260 34431 15960 35960 support : 18

要求:给出解决此问题的解决思路。

截至日期:第17周之前。

 

2、数据挖掘算法实现(占20%)

内容:实现去年在美国《科学》期刊发表的一种新型聚类算法(论文题目:Clustering by fast search and find of density peaks,作者:Alex Rodriguez and Alessandro Laio,期刊:27 JUNE 2014 • VOL 344 ISSUE 6191,Science)。

要求:独立完成,不限制编程语言,对算法进行性能评测,并提交源代码及评测结果(含数据集的介绍)。

截至日期:第17周之前。

 

3、期中考试(占30%)

约90分钟的期中考试,初步定为开卷方式(即允许带书、胶片、笔记本电脑、计算器等),时间在第8周 左右,课堂内进行。

 

4、期末考试(占40%)

约90分钟的期末考试,初步定为开卷方式(即允许带书、胶片、笔记本电脑、计算器等),时间在第17周。