1、模式发现问题(占10%)
内容:TFP是一个从交易记录数据中挖掘前K个最频繁闭合项集的算法(论文题目:TFP: An efficient algorithm for mining top-k frequent closed itemsets,作者:J Wang, J Han, Y Lu, P Tzvetkov,期刊:IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 5, PP:652-663,软件包下载)。但它存在一个问题,即它挖掘的模式冗余度较大,而多样性不好(用户在使用TFP算法解决问题时抱怨“most patterns are very similar to each other”、“TFP finds a top pattern and also generates many similar looking patterns.”等 )。一个典型的TFP输出如下:
size 10
17831 13155 38331 33155 33931 18331 16031 37831 13260 15960 support : 31
17831 13155 11460 38331 33155 18331 16031 37831 13260 15960 support : 24
size 11
17831 13155 13931 38331 33155 33931 18331 16031 37831 13260 15960 support : 29
17831 13155 11460 38331 33155 33931 18331 16031 37831 13260 15960 support : 19
size 12
17831 13155 14431 38331 33155 33931 18331 16031 37831 13260 34431 15960 support : 25
17831 13155 11460 13931 38331 33155 33931 18331 16031 37831 13260 15960 support : 17
size 13
17831 13155 13931 14431 38331 33155 33931 18331 16031 37831 13260 34431 15960 support : 23
14131 13241 17831 34131 13155 38331 33155 18331 33241 16031 37831 13260 15960 support : 22
size 14
17831 31460 13155 13931 38331 33155 33931 18331 16031 36031 37831 13260 15960 35960 support : 24
size 16
17831 31460 13155 13931 14431 38331 33155 33931 18331 16031 36031 37831 13260 34431 15960 35960 support : 18要求:给出解决此问题的解决思路。
截至日期:第17周之前。
2、数据挖掘算法实现(占20%)
内容:实现去年在美国《科学》期刊发表的一种新型聚类算法(论文题目:Clustering by fast search and find of density peaks,作者:Alex Rodriguez and Alessandro Laio,期刊:27 JUNE 2014 • VOL 344 ISSUE 6191,Science)。
要求:独立完成,不限制编程语言,对算法进行性能评测,并提交源代码及评测结果(含数据集的介绍)。
截至日期:第17周之前。
3、期中考试(占30%)
约90分钟的期中考试,初步定为开卷方式(即允许带书、胶片、笔记本电脑、计算器等),时间在第8周 左右,课堂内进行。
4、期末考试(占40%)
约90分钟的期末考试,初步定为开卷方式(即允许带书、胶片、笔记本电脑、计算器等),时间在第17周。