正在播放:
正在加载播放地址...
课程目录

最新评论

正在加载评论...

厦门大学《大数据技术与应用》课程深度解析:从理论到实战

内容简介:大数据技术与应用作为厦门大学计算机专业的王牌选修课,近年来吸引了越来越多的本科生和研究生选课。这门课的独特之处在于,它不是简单地教你怎么用Hadoop或者Spark,而是从国家战略层面带你理解为什么需要大数据技术,再通过真实的医药行业案例,让你动手完成整个数据处理流程。

大数据技术与应用 厦门大学 - 大数据技术

为什么这门课值得学?

记得去年双十一,阿里公布他们1秒钟要处理几十万笔交易数据时,我的学生们突然明白了我们课上讲的"分布式计算"到底有多重要。这正是我们课程要解决的问题——不只是讲概念,而是培养真正的工程能力。学校专门配置了6台大数据实训一体机,每组学生都能在真实集群上操作,这种条件在全国高校都不多见。

课程三大特色模块

  • 基础篇:手把手教你搞定HDFS文件操作,有学生用MapReduce开发出校园一卡通数据分析系统
  • 核心篇:通过YARN资源管理实验,掌握企业级调度技巧
  • 应用篇:去年新增的医药大数据案例,直接使用某三甲医院脱敏数据
大数据技术与应用 厦门大学 - Hadoop架构

课程大纲详解

第一模块:分布式系统基础 (32课时)

从Google三大论文讲起,重点突破HDFS的机架感知机制。实验环节要完成跨节点数据备份,有个小组曾经因此发现了校内网络拓扑的问题。

第二模块:计算框架开发 (48课时)

MapReduce部分会带你重写WordCount的6种实现方式。Spark环节特别强调性能调优,去年有个小组把算法优化后性能提升了17倍。

第三模块:行业应用实战 (24课时)

医药案例包含药品库存预测和门诊量分析两个子项目。使用真实的Hive数据仓库,有小组发现了季节性用药的有趣规律。

大数据技术与应用 厦门大学 - 数据分析

这门课适合哪些人?

除了计科专业学生,不少经管学院的同学也会选修。有位金融工程的研究生课后告诉我,他运用Spark MLlib做的股价预测模型,比传统方法准确率提高了22%。课程对编程基础有一定要求,但预备知识部分会补上Linux和Java基础。

每个学期最后两周的课程设计展示总是最精彩的。去年有组同学开发了基于微博数据的疫情预测系统,后来这个项目拿了省级竞赛二等奖。期待这学期能看到更多创新应用!