大数据不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。
播放:12815次,课程ID:4232200
大数据不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。
--1.1大数据的定义与特点
--1.2 大数据算法-求解大数据上计算问题的过程
--1.2 大数据算法-大数据算法的定义
--1.2 大数据算法-大数据算法的特点与难点
--1.3 大数据算法设计与分析
--第一讲 讨论
--2.1 亚线性算法的定义
--2.2 水库抽样—空间亚线性算法
--2.3 平面图直径—时间亚线性计算算法
--2.4 全0数组判定—时间亚线性判定算法
--3.1 数据流中频繁元素-基础知识
--3.1 数据流中频繁元素-算法与分析
--3.2 生成树权重(一)
--3.2 生成树权重(二)
--3.3 数组有序性判定
--4.1 外存存储结构与外存算法
--4.2 外存排序算法(一)
--4.2 外存排序算法(二)[可选学]
--4.3 外存查找树
--5.1 B树(一)
--5.1 B树(二)
--5.2 KD树
--6.1 表排序及其应用
--6.2 时间前向处理方法
--6.3 缩图法
--7.1 MapReduce概述
--7.2 字数统计
--7.3 平均数计算
--7.4 单词共现矩阵的计算
--8.1 连接算法
--8.2 图算法(一)
--8.3 图算法(二)
-- 9.1 基于迭代处理平台的并行算法
-- 9.2 基于图处理平台的并行算法
-- 10.1 众包的定义
-- 10.2 众包的实例
-- 10.3 众包的要素
-- 10.4 众包算法例析
王宏志博士,2008年于哈尔滨工业大学计算机软件与理论专业获得博士学位,美国加州大学欧文分校博士后。现任软件与理论学科副教授,博士生导师。研究方向为大数据管理、Web数据管理与挖掘、数据质量管理和图数据管理。发表学术论文140余篇,出版中文学术专著《XML查询处理》和英文专著《Innovative Techniques and Applications of Entity Resolution》,撰写3篇专著章节,拥有3项软件著作权,完成经典教材《算法导论(第三版)》最后5章的翻译,其论文被SCI/EI检索60余次,他人引用300余次,其中5篇论文发表于顶级国际会议上。获得微软学者(亚太地区40人获奖)、中国优秀数据库工程师(全国10人获奖)、IBM博士英才(大中华区8人获奖)等称号,“海量数据计算的理论和技术”获得黑龙江省自然科学奖1项,其博士论文“XML数据查询处理技术的研究”获得哈尔