一、科创俱乐部简介
千亿体育登录HIT智能数据俱乐部(HIT Artificial Intelligent & Database Club)俱乐部成立于2013年9月,是在学院及海量数据计算研究中心王宏志老师的指导下,哈工大大数据集团赞助下独立开展工作的学生组织,是切实为广大同学们服务的团体。俱乐部以“开拓创新,锐意进取”为指导思想,“培养大数据和人工智能方向人才”为宗旨,与时俱进,积极扎实地开展各项学术类、技术类及综合类活动,不断开拓新思路、着力搭建开展大数据及AI研究及开发的新平台、努力开创数据技术和人工智能的新局面、抓住大数据方向的黄金机遇期、不断取得突破。在这里我们有一流的师资指导,经验丰富的学长学姐,业界领先的实用技术,这里有学科前沿的技术训练营,新颖的创意竞赛。
二、俱乐部指导教师简介

指导教师:王宏志教授。博士生导师、英才学院副院长,龙江学者青年学者、黑龙江省青年科技奖得主、CCF优秀博士论文得主、教育部高等学校计算机类专业教学指导委员会计算机系统专家委员会委员、中国计算机学会学术工作委员会委员、中国计算机学会数据库专业委员会常务委员、ACM SIGMOD China秘书长、CCF哈尔滨分部副主席、微软学者、中国优秀数据库工程师。研究方向为数据库、大数据管理与分析、大数据治理等,发表论文300余篇,SCI收录80余次,他引1800余次,先后主持国家自然科学基金重点项目、国际合作项目等10余项项目,以主要成员参与973项目、863项目、国家重点研发计划项目、国家自然科学基金重点项目以及一批省部级重点项目和多项国际合作项目等。
海量数据计算研究中心简介:随着计算机和网络技术的蓬勃发展,大数据一词已经越来越多地被提及,国内已有超过200所高校被批准开设数据科学相关专业。在这个信息爆炸的时代,海量数据已经与我们的生活息息相关,它决定着一个企业、机构甚至国家的未来。现如今,任何一个领域的决策都将日益基于数据和分析做出,而非基于经验和直觉。千亿体育登录学计算机学院海量数据计算研究中心紧握大数据时代的脉搏,依托教育部“海量数据计算理论与技术”创新团队,黑龙江省大数据计算重点实验室和千亿体育登录学国际大数据计算研究中心,科学研究和工程开发工作围绕着大数据的采集、传输、存储、计算、挖掘等方面,是大数据的海洋中众多探寻者中的一支精英力量。实验室研究方向包括:大数据计算理论、大数据计算的算法设计方法、大数据质量管理的理论与方法、物联网感知大数据获取与分布式计算的理论与算法、大数据计算问题求解的理论和方法、支撑人工智能的大数据技术(DB4AI)、智能大数据管理与分析理论与技术(AI4DB)、大数据分析与挖掘的理论与技术、大数据管理与服务平台、面向应用(工业、电信、医疗等)的大数据计算理论与算法、面向无人系统的数据分析与算法设计。
三、俱乐部主要成员简介
俱乐部现有成员20余人。均在海量数据计算研究中心的各大项目中担任重要工作。
俱乐部现任主要成员简介:
毕研恒:俱乐部主席,2017级本科生,2021级直博生,导师为王宏志教授。主要研究方向为NAS(neural architecture search)、图神经网络。
郑胜文:俱乐部副主席,2017级本科生,2021级硕士,导师为王宏志教授。主要研究方向为Auto_ML、电网、图神经网络。2019年获得大学生年度创新项目省级一等奖。在校期间多次获得英才学院人民奖学金。
往届成员简介(部分优秀学长学姐):
梁志宇:2018级博士,主要研究方向为工业大数据。
穆添愉:2019年3月——2020年9月任俱乐部主席。主要研究方向为NAS(neural architecture search)、算法自动选择。
高天鹏:2017级硕士,导师为李建中教授。
王春楠:2018年3月——2019年3月任俱乐部主席。2017级博士,主要研究方向为NAS(neural architecture search)、Auto_ML。
安宏展:2016级本科。现就职于快手。
万晓珑:2018级博士。研究方向为知识图谱。
齐志鑫:2017年3月——2018年3月任俱乐部主席。2016级硕士、2018级博士。研究方向为知识图谱、时间序列。
丁晓鸥:2018级博士,研究方向为工业大数据、知识图谱。
四、俱乐部所获荣誉奖项
专利作品:
1. 王宏志, 周游, 杨东华, 高宏, 齐志鑫. 关系模式的自动转换方法、装置及存储介质. 专利号: ZL201810498633.8 授权号: CN108776673B 授权日: 2020.08.18
2. 王宏志, 李天宝, 齐志鑫, 童超宇, 李战怀, 彭智勇, 王国仁. 面向海量异构数据的模式集成方法及装置. 专利号: ZL201711116061.4 授权号: CN107808001B 授权日: 2019.12.06
3. 王宏志, 尹薇, 齐志鑫, 高宏. 一种针对时间序列的异常值修复方法及装置. 公开号: CN109063145A 公开日: 2018.12.21
4. 王宏志, 宋扬, 齐志鑫. 一种基于LSTM网络的数据预测模型调优方法及装置. 公开号: CN108764568A 公开日: 2018.11.06
5. 王宏志, 魏延杰, 齐志鑫, 高宏. 基于条件随机场与Stacking算法的时间序列预测方法和装置. 公开号: CN108596398A 公开日: 2018.09.28
6. 王宏志, 孟凡山, 齐志鑫, 高宏. 一种基于特征采样的时间序列分类方法及装置. 公开号: CN108573059A 公开日: 2018.09.25
7. 王宏志, 孙铭, 齐志鑫, 高宏. 数据分类方法、装置及存储介质. 公开号: CN108564137A 公开日: 2018.09.21
8. 王宏志, 孙颖凯, 郑博, 梁栋, 齐志鑫. 一种确定图数据存储结构的方法和装置. 公开号: CN111708923A 公开日: 2020.09.25
9. 王宏志, 邹开发, 郑博, 梁栋, 齐志鑫. SparQL查询语句的预测方法和装置. 公开号: CN111723106A 公开日: 2020.09.29
10. 王宏志, 欧阳俊飞, 郑博, 梁栋, 齐志鑫. 一种生成数据库索引的方法和装置. 公开号: CN111723076A 公开日: 2020.09.29
论文专著:
Chunnan Wang, Hongzhi Wang, Tianyu Mu, Jianzhong Li, Hong Gao:
AutoModel: Utilizing Research Papers and HPO Techniques to Deal with the CASH problem. ICDE 2020: 1906-1909
Bozhou Chen, Kaixin Zhang, Longshen Ou, Chenmin Ba, Hongzhi Wang, Chunnan Wang:
Automatic Hyper-Parameter Optimization Based on Mapping Discovery from Data to HyperParameters.
CoRR abs/2003.01751 (2020)
Chunnan Wang, Hongzhi Wang, Guocheng Feng, Fei Geng:
MultiObjective Neural Architecture Search Based on Diverse Structures and Adaptive Recommendation.
CoRR abs/2007.02749 (2020)
Tianyu Mu, Hongzhi Wang, Chunnan Wang, Zheng Liang:
Auto-CASH: Autonomous Classification Algorithm Selection with Deep QNetwork.
CoRR abs/2007.03254 (2020)
Chunnan Wang, Hongzhi Wang, Tianyu Mu, Jianzhong Li, Hong Gao:
AutoModel: Utilizing Research Papers and HPO Techniques to Deal with the CASH problem.
CoRR abs/1910.10902 (2019)
Zhiyu Liang, Hongzhi Wang, Jianzhong Li, Hong Gao:
IMOptimizer: An Online Interactive Parameter Optimization System Based on Big Data.
DASFAA (3) 2019: 581-584
Zhiyu Liang, Hongzhi Wang, Jijia Yang:
STRATEGY: A Flexible Job-Shop Scheduling System for Large-Scale Complex Products.
DASFAA (3) 2020: 766-770
Zhiyu Liang, Hongzhi Wang, Hao Zhang, Hengyu Guo:
GMDA: An Automatic Data Analysis System for Industrial Production.
DASFAA (3) 2020: 780-784
五、俱乐部场地和资金支持或与企业、实验中心对接情况
1.与研究中心对接项目——工业大数据:
工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。其以产品数据为核心,极大延展了传统工业数据范围,同时还包括工业大数据相关技术和应用。
(1)重要性:
制造强国战略文件《中国制造2025》明确指出:工业大数据是我国制造业转型升级的重要战略资源,战略任务包括:加快推动新一代信息技术与制造技术融合发展,把智能制造作为两化深度融合的主攻方向。工业大数据是工业互联网的核心,是工业智能化发展的基础原料。工业大数据分析具有重大战略价值。
(2)相关研究方向:
Cleanits工业大数据清洗系统:
在关系型时态数据上多种错误的综合清洗,理论论文错误共生关联关系,提出综合性清洗策略。是国内外首个解决“不完整、不一致、时序不清的综合性数据清洗”方法的工作,在大数据时效性研究上取得国际领先进展。真实数据的实验表明,本方法的修复质量和效率均优于已有的领先修复方法。
时序数据值异常的检测和修复:
针对工业大数据的独有特点,首先提出工业大数据相关性计算模型,实现从数据中提取信息进行知识推理。提出基于相关性图模型的异常检测方法,实现对模式多样的工业大数据的智能化、全面性的异常与错误数据检测,有效减少对异常实例的误判和漏判。
2.算法自动选择和神经架构搜索研究及系统设计:
(1)算法自动选择:

算法自动选择(Algorithm Selection,简称AS)是一种根据自动选择合适机器学习算法的技术,可以通过算法根据任务特征自动从已有算法中挑选出最适合的机器学习算法。这可以有效的提升解决任务的能力,降低机器学习的使用成本。该技术可以降低机器学习的门槛,有助于非专业人员更容易地使用机器学习技术。
算法自动选择是指当我们遇到一系列问题实例需要处理时,我们不再依赖于有相关经验的专家,而是让计算机自动(没有任何的人工干预)地帮助我们快速的选择出效果最好的模型或算法来解决问题。目前应用最多的场景就是静态闭环AutoML。在给定数据和度量标准之后,通过AutoML选择出效果最好的模型。该过程没有任何人工干预,都是算法自动选择的。

当今时代,许多不同的领域都对从数据中学习有很大的兴趣,比如银行、生物信息学、商业、农业、教育等领域。而进行数据挖掘从数据中提取信息则需要使用大量的机器学习算法。这也促使了众多的学习算法的诞生,但是,研究表明不存在一个在任何情况下都是最优的算法,因此我们就需要针对不同情况选择不同的算法。
当我们选择算法时,一般的做法要么是使用数据进行几组算法的实验,要么从机器学习专家那里获得建议,但是这些算法并不总是切合实际的,前者需要耗费很多时间和精力,后者又无法保证有那么多的专业人士,所以我们就需要计算机能够自行根据问题特征选择合适的机器学习算法。所以这样看来,机器学习算法的自动选择有重要意义。
(2)神经网络搜索
神经结构搜索(Neural Architecture Search,简称NAS)是一种自动设计神经网络的技术,可以通过算法根据样本集自动设计出高性能的网络结构。在某些任务上甚至可以媲美人类专家的水准,甚至发现某些人类之前未曾提出的网络结构,这可以有效的降低神经网络的使用和实现成本。该技术可以降低深度学习的门槛,有助于研究人员和从业人员更容易地使用深度学习。
神经网络架构搜索NAS(Neural Architecture Search)是一种搜索最佳神经网络构架的算法。在神经网络模型算法中,大多数会定义一组可能用于网络的“构建块”,在NAS算法中,控制器递归神经网络(RNN)对这些构建块进行采样,将它们组合在一起以创建某种端到端模型。然后对这种新的网络架构进行训练以使得模型收敛,并在验证集上保持获得一些准确性,由此产生的精度可以用于更新控制器,以便控制器随着时间的推移产生更好的架构,可能选择出更好的构建块或更好的组合方式,使用策略梯度更新控制器权重。

简单来说就是让算法抓住不同的构建块并将这些块放在一起构成一个网络,然后训练并且测试该网络,之后根据模型的结果,调整用于制作网络的构建块和组合方式。
六、俱乐部活动计划
技术分享和学术讨论:对与俱乐部相关的项目所涉及到的技术进行技术分享。主要请参与相关项目的学长学姐对学弟学妹们进行技术的介绍,带领学弟学妹们体验一下前沿的技术。并组织学生对先进的学术问题,高难度学术论文进行学术研讨,共同研究如何创新。
参与实验室项目:对于那些对实验室项目感兴趣的同学,俱乐部的同学们会带领他们一起实际参加项目,让他们真正参与到项目的工作中来,并且可以根据突出表现发表论文或者获取专利。
七、俱乐部招新计划
面向所有学生招新,不限专业、年级,只要你对我们的俱乐部感兴趣,我们就欢迎你们的加入。
招新QQ群:1163047454