本课程不仅提供可扩展大数据分布式系统的一般设计原则,还提供了对当今行业中使用的真实系统的大数据处理流程的见解的案例研究。
播放:31644次,课程ID:4233670
本课程不仅提供可扩展大数据分布式系统的一般设计原则,还提供了对当今行业中使用的真实系统的大数据处理流程的见解的案例研究。
--What is big data and what is big data system?
--Problems in big data systems?
--Overview of the course
--Principles of big data system design
--Manipulating Data on Linux
--Running Commands on a Single Machine
--Using a Linux Cluster
--Storage for Big Data Computing: Distributed file system
--File system and GFS
--Understanding HDFS using Legos
--File System Implementation and DFS
--What is MapReduce and why
--Learn MapReduce by playing with cards
--Processing pattern
--Hadoop
--Algorithms in MapReduce
--Tutorial
--Background
--Spark
--Use Spark for data mining
--Spark data processing
--Experiment in Spark
--Introduction to streaming data processing
--Storm
--Spark streaming
--NoSQL introduction
--Common Advantages
--Bigtable
--Master Startup
--HBase
--What is GraphDB and Graph data processing
--Graph systems
--Example of a GraphDB
--Mahout
--Case Study: Recommendation
--Recommendation in Mahout
王智,副教授,开设过《大数据系统基础B》等课程 。2014/2008年分别获清华大学工学博士/学士学位。从事多媒体网络和大数据系统方向研究,包括高性能数据处理系统优化,以及数据驱动的边缘网络、内容分发策略设计。以第一作者发表学术论文20余篇,包括多媒体领域IEEE TMM、ACM TOMCCAP、ACM Multimedia,计算机网络领域IEEE TPDS、IEEE INFOCOM、ACM CoNEXT等。获2014年中国计算机学会(CCF)优秀博士论文奖(排名3/10),ACM Multimedia 2012唯一最佳论文奖,MMM 2015最佳学生论文奖。关键技术获2014腾讯移动互联网创业大赛冠军(第1名),并获得优秀指导老师奖。研究申请专利4项。担任担任期刊中国通信、JCST客座编委。担任ACM Multimedia 2014,IEEE ICC 2014,ACM MMSys 2014,IEEE ICME 2013等会议程序委员会(TPC)成员。