内容简介:大数据技术与应用作为厦门大学计算机专业的王牌选修课,近年来吸引了越来越多的本科生和研究生选课。这门课的独特之处在于,它不是简单地教你怎么用Hadoop或者Spark,而是从国家战略层面带你理解为什么需要大数据技术,再通过真实的医药行业案例,让你动手完成整个数据处理流程。
记得去年双十一,阿里公布他们1秒钟要处理几十万笔交易数据时,我的学生们突然明白了我们课上讲的"分布式计算"到底有多重要。这正是我们课程要解决的问题——不只是讲概念,而是培养真正的工程能力。学校专门配置了6台大数据实训一体机,每组学生都能在真实集群上操作,这种条件在全国高校都不多见。
从Google三大论文讲起,重点突破HDFS的机架感知机制。实验环节要完成跨节点数据备份,有个小组曾经因此发现了校内网络拓扑的问题。
MapReduce部分会带你重写WordCount的6种实现方式。Spark环节特别强调性能调优,去年有个小组把算法优化后性能提升了17倍。
医药案例包含药品库存预测和门诊量分析两个子项目。使用真实的Hive数据仓库,有小组发现了季节性用药的有趣规律。
除了计科专业学生,不少经管学院的同学也会选修。有位金融工程的研究生课后告诉我,他运用Spark MLlib做的股价预测模型,比传统方法准确率提高了22%。课程对编程基础有一定要求,但预备知识部分会补上Linux和Java基础。
每个学期最后两周的课程设计展示总是最精彩的。去年有组同学开发了基于微博数据的疫情预测系统,后来这个项目拿了省级竞赛二等奖。期待这学期能看到更多创新应用!
最新评论