- 0.1 课程及其配套在线资源介绍
- 1.1 大数据时代
- 1.2大数据概念和影响
- 1.3 大数据的应用
- 1.4大数据的关键技术
- 1.5.1云计算
- 1.5.2 物联网
- 2.1.1 Hadoop简介
- 2.1.2 Hadoop不同版本
- 2.2 Hadoop项目结构
- 2.3.1Hadoop安装之前的预备知识
- 2.3.2 Hadoop的安装和使用详解
- 2.4 Hadoop集群的部署和使用
- 3.1 分布式文件系统HDFS简介
- 3.2 HDFS相关概念
- 3.3 HDFS体系结构
- 3.4 HDFS存储原理
- 3.5.1 HDFS读数据过程
- 3.5.2 HDFS写数据过程
- 3.6 HDFS编程实践
- 4.1 HBase简介
- 4.2 HBase数据模型
- 4.3 HBase的实现原理
- 4.4 HBase运行机制
- 4.5 HBase应用方案
- 4.6 HBase安装配置和常用Shell命令
- 4.7 HBase常用Java API及应用实例
- 5.1 NoSQL概述
- 5.2 NoSQL与关系数据库的比较
- 5.3.1键值数据库和列族数据库
- 5.3.2文档数据库图数据库以及不同数据库比较分析
- 5.4.1 CAP理论
- 5.4.2 BASE和最终一致性
- 5.5 从NoSQL到NewSQL数据库
- 5.6 文档数据库MongoDB
- 6.1 云数据库概述
- 6.2 云数据库产品
- 6.3.1 UMP系统概述
- 6.3.2 UMP系统架构
- 6.3.3 UMP系统功能
- 6.4.1 Amazon和云计算的渊源
- 6.4.2 Amazon AWS
- 6.4.3 Amazon AWS平台上的云数据库
- 6.5 微软云数据库SQL Azure
- 6.6 云数据库实践
- 7.1 MapReduce概述 - 7.1.1 分布式并行编程
- 7.1 MapReduce概述 - 7.1.2 MapReduce模型简介
- 7.2 MapReduce的体系结构 - 7.2 MapReduce的体系结构
- 7.3 MapReduce工作流程 - 7.3 MapReduce工作流程
- 7.4 Shuffle过程原理 - 7.4 Shuffle过程原理
- 7.5 MapReduce应用程序执行过程 - 7.5 MapReduce应用程序执行过程
- 7.6 实例分析WordCount - 7.6 实例分析WordCount
- 7.7 MapReduce的具体应用 - 7.7 MapReduce的具体应用
- 7.8 MapReduce编程实践 - 7.8 MapReduce编程实践
- 8.1 数据仓库概念 - 8.1 数据仓库概念
- 8.2 Hive简介 - 8.2 Hive简介
- 8.3 SQL转换成MapReduce作业的原理 - 8.3 SQL转换成MapReduce作业的原理
- 8.4 Impala - 8.4.1 Impala简介
- 8.4 Impala - 8.4.2 Impala系统架构
- 8.4 Impala - 8.4.3 Impala查询执行过程
- 8.4 Impala - 8.4.4 Impala与Hive的比较
- 8.5 Hive编程实践 - 8.5.1 Hive安装与基本操作
- 8.5 Hive编程实践 - 8.5.2 Hive应用实例WordCount
- 9.1 Hadoop的优化与发展 - 9.1 Hadoop的优化与发展
- 9.2 HDFS2.0的新特性 - 9.2.1 HDFS HA
- 9.2 HDFS2.0的新特性 - 9.2.2 HDFS Federation
- 9.3 新一代资源管理调度框架YARN - 9.3.1MapReduce1.0的缺陷
- 9.3 新一代资源管理调度框架YARN - 9.3.2 YARN设计思路
- 9.3 新一代资源管理调度框架YARN - 9.3.3 YARN体系结构
- 9.3 新一代资源管理调度框架YARN - 9.3.4 YARN工作流程
- 9.3 新一代资源管理调度框架YARN - 9.3.5 YARN框架与MapReduce1.0框架的对比分析
- 9.3 新一代资源管理调度框架YARN - 9.3.6 YARN的发展目标
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.1 Pig
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.2 Tez
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.3 Spark和Kafka
- 10.1 Spark概述 - 10.1.1 Spark简介
- 10.1 Spark概述 - 10.1.2 Spark与Hadoop的对比
- 10.2 Spark生态系统 - 10.2 Spark生态系统
- 10.3 Spark运行架构 - 10.3.1 基本概念和架构设计
- 10.3 Spark运行架构 - 10.3.2 Spark运行基本流程
- 10.3 Spark运行架构 - 10.3.3 RDD概念
- 10.3 Spark运行架构 - 10.3.4 RDD特性
- 10.3 Spark运行架构 - 10.3.5 RDD的依赖关系和运行过程
- 10.4 Spark SQL - 10.4 Spark SQL
- 10.5 Spark的部署和应用方式 - 10.5 Spark的部署和应用方式
- 10.6 Spark编程实践 - 10.6.1 Spark安装和启动Spark Shell
- 10.6 Spark编程实践 - 10.6.2 Spark RDD基本操作
- 10.6 Spark编程实践 - 10.6.3 Spark应用程序
- 11.1 流计算概述 - 11.1.1 数据的处理模型
- 11.1 流计算概述 - 11.1.2 流计算概念与典型框架
- 11.3 流计算的应用 - 11.3 流计算的应用
- 11.4 开源流计算框架Storm - 11.4.1 Storm简介
- 11.4 开源流计算框架Storm - 11.4.2 Storm设计思想
- 11.4 开源流计算框架Storm - 11.4.3 Storm框架设计
- 11.5 Spark StreamingSamza以及三种流计算框架的比较 - 11.5 Spark StreamingSamza以及三种流计算框架的比较
- 11.6 Storm编程实践 - 11.6.1 编写Storm程序
- 11.6 Storm编程实践 - 11.6.2 安装Storm的基本过程和实例
- 12.1 图计算简介 - 12.1 图计算简介
- 12.2 Pregel简介 - 12.2 Pregel简介
- 12.3 Pregel图计算模型 - 12.3.1 有向图和顶点
- 12.3 Pregel图计算模型 - 12.3.2 Pregel的计算过程
- 12.3 Pregel图计算模型 - 12.3.3 Pregel实例
- 12.4 Pregel的C++ API - 12.4.1 定义Vertex基类
- 12.4 Pregel的C++ API - 12.4.2 消息传递机制和Combiner
- 12.4 Pregel的C++ API - 12.4.3 Aggregator拓扑改变和输入输出
- 12.5 Pregel的体系结构 - 12.5.1 Pregel的执行过程和容错性
- 12.5 Pregel的体系结构 - 12.5.2 WorkerMaster和Aggregator
- 12.6 Pregel的应用实例单源最短路径 - 12.6 Pregel的应用实例单源最短路径
- 12.7 Hama的安装和使用 - 12.7 Hama的安装和使用
- 13.1 大数据应用概览 - 13.1大数据应用概览
- 13.2 推荐系统 - 13.2.1 推荐系统概述
- 13.2 推荐系统 - 13.2.2 基于用户的协同过滤UserCF
- 13.2 推荐系统 - 13.2.3 基于物品的协同过滤ItemCF
- 13.2 推荐系统 - 13.2.4 UserCF算法和ItemCF算法的对比
- 13.3 大数据在智能医疗和智能物流领域运用 - 13.3 大数据在智能医疗和智能物流领域运用
厦门大学《大数据技术与应用》课程深度解析:从理论到实战
内容简介:大数据技术与应用作为厦门大学计算机专业的王牌选修课,近年来吸引了越来越多的本科生和研究生选课。这门课的独特之处在于,它不是简单地教你怎么用Hadoop或者Spark,而是从国家战略层面带你理解为什么需要大数据技术,再通过真实的医药行业案例,让你动手完成整个数据处理流程。
为什么这门课值得学?
记得去年双十一,阿里公布他们1秒钟要处理几十万笔交易数据时,我的学生们突然明白了我们课上讲的"分布式计算"到底有多重要。这正是我们课程要解决的问题——不只是讲概念,而是培养真正的工程能力。学校专门配置了6台大数据实训一体机,每组学生都能在真实集群上操作,这种条件在全国高校都不多见。
课程三大特色模块
- 基础篇:手把手教你搞定HDFS文件操作,有学生用MapReduce开发出校园一卡通数据分析系统
- 核心篇:通过YARN资源管理实验,掌握企业级调度技巧
- 应用篇:去年新增的医药大数据案例,直接使用某三甲医院脱敏数据
课程大纲详解
第一模块:分布式系统基础 (32课时)
从Google三大论文讲起,重点突破HDFS的机架感知机制。实验环节要完成跨节点数据备份,有个小组曾经因此发现了校内网络拓扑的问题。
第二模块:计算框架开发 (48课时)
MapReduce部分会带你重写WordCount的6种实现方式。Spark环节特别强调性能调优,去年有个小组把算法优化后性能提升了17倍。
第三模块:行业应用实战 (24课时)
医药案例包含药品库存预测和门诊量分析两个子项目。使用真实的Hive数据仓库,有小组发现了季节性用药的有趣规律。
这门课适合哪些人?
除了计科专业学生,不少经管学院的同学也会选修。有位金融工程的研究生课后告诉我,他运用Spark MLlib做的股价预测模型,比传统方法准确率提高了22%。课程对编程基础有一定要求,但预备知识部分会补上Linux和Java基础。
每个学期最后两周的课程设计展示总是最精彩的。去年有组同学开发了基于微博数据的疫情预测系统,后来这个项目拿了省级竞赛二等奖。期待这学期能看到更多创新应用!








