北京大学-字节跳动数字人文开放实验室

北京大学数字人文实验室的前身是北大信息管理系 KVision 数字图书馆实验室。2020 年成立校级虚体“北京大学数字人文研究中心”,同时组建北京大学数字人文开放实验室。2022 年 3 月起接受字节跳动公益的捐赠从事古籍资源的智能开发与利用研究。为答谢字节跳动公益的支持,实验室更名为"北京大学-字节跳动数字人文开放实验室",在北京大学人工智能研究院下运作。实验室目前的研究方向有:自然语言处理,深度学习、本体与知识图谱,信息可视化,交互设计,用户信息行为研究等。

开放实验室是一个跨学科的研究机构,来自北大多个院系的科研导师对实验室的同学进行联合指导。作为开放实验室,我们招收各专业的同学以多种灵活的方式参与科研实践。实验室十分欢迎兄弟院校的同学申请实验室的科研实习岗位。请将您的简历发送到 gdhc@pku.edu.cn

指导老师

王军

北京大学信息管理系教授

苏祺

北京大学外国语言学及应用语言学研究所副教授

杨浩

北京大学哲学系助理教授

史睿

北京大学中国古代史研究中心副研究馆员

位通

北京大学信息管理系助理研究员

研究成员

新近毕业生

毕业生

博士毕业生

张力元: 2017级博士生,研究方向为数字人文与自然语言处理,博士毕业论文题目为:“基于机器学习的古典目录学互著与别裁方法研究”。现就职于北京大学图书馆。
严承希: 2016级博士生,研究方向为数字人文与深度学习。曾赴哈佛大学费正清研究中心CBDB团队访问学习一年。负责“吾与点”平台的专名识别功能的算法设计与实现。博士毕业论文题目为:“基于主动学习的汉语古籍命名实体识别研究”。现就职于中国人民大学信息资源管理学院。
程文婷: 2014级博士生,研究方向为信息产品设计、信息行为和人机交互,尤其关注儿童和青少年领域。博士毕业论文题目是“ 面向学龄前儿童的教育移动应用评价体系研究”。毕业后就职于北京师范大学珠海分校。

硕士毕业生

李晓煜: 2019级硕士生,研究方向为数字人文与知识图谱,是“宋元学案知识图谱”项目的产品负责人和研发工程师。硕士毕业论文题目为“数字人文知识图谱可视化语义检索系统的设计与实现”。毕业后就职于字节跳动。
桑宇辰: 2019级硕士生,研究方向为数字人文与地理信息系统可视化,是“朱子年谱可视化系统”的设计者与研发工程师。硕士毕业论文题目是“中国历史人物年谱生平信息重构与时空可视化呈现——以《朱熹年谱长编》为例”。毕业后就职于网易互娱。
何姿谊: 2019级硕士生,研究方向为数字人文与用户行为研究,硕士毕业论文题目是“古籍标注平台的用户研究和平台设计”。毕业后就职于哔哩哔哩上海公司。
邱勇: 2018级硕士生,研究方向为数字人文与信息可视化,毕业论文研究题目是“中国历代人物迁徙及学术传承可视化研究”,是“中国历代人物迁徙可视化平台”的设计者与研发工程师。毕业后就职于微软公司。
陈润文: 2018级硕士生,研究方向为数据分析。参与西安新路高科技公司合作项目"大学生导航网站"的设计以及“数据驱动的大学生行为分析”的研究课题,毕业论文题目是“基于NAT日志的大学生网络行为分析”。毕业后就职于搜狐科技公司。
刘戴维: 2018级硕士生,研究方向为用户行为。参与了西安新路高科技公司的合作项目“大学生导航网站”设计工作。毕业后就职于爱奇艺。
林子婕: 2015级硕士研究生,关注用户研究方向,参与信利项目。2014年暑期课助教。目前就职于中信所。
李振淼: 2015级硕士研究生,具有信息管理和经济学背景,参与国家自然科学基金“面向电商生态平衡的目录导购机制研究”,目前就职于国家进出口银行。
蔡小芳: 2011级硕士研究生。为第一届Web信息产品设计暑期课的成功筹办做了大量的工作,并在KVision实验室开启了儿童App评测的研究方向。目前在香港大学攻读博士学位。个人链接http://caixiaofang.webs.com/。
丁婉莹: 2010级硕士研究生。全面系统地应用了文献计量和社会网络分析方法对30年内中英文莎士比亚的文献进行对比研究。目前在美国Drexel计算机与信息学院攻读数据机器学习的博士学位。
黄松祥: 2009级硕士研究生。应用文献计量、社会网络分析方法对Web Science图情领域的文献题录数据进行分析,描述了特定领域的学科演进知识图谱。
翁荔: 2005级本科生。是“兜乐”项目的骨干设计人员。负责客户端和网站的界面设计,是兜乐项目组的“美工”。毕业后赴美攻读博士学位,现就职于Facebook。
彭红彬: 2008级硕士研究生。大四即进入实验室,是“兜乐”项目的核心开发成员,负责兜乐网站的开发,并协助周鑫进行兜乐服务器端升级重构。硕士论文的部分文字被编入《面向网络环境下的知识组织规范与应用指南》第四章。
周鑫: 2008级硕士研究生。目前就职于中国互联网管理中心(CNNIC)。周鑫是“兜乐”项目的核心开发成员,大四即进入实验室,全面负责服务器端和通信协议的开发。“兜乐”是KVision实验室开发面向普通大众的一款社会化书签平台,它是实验室最重要的研究遗产之一,它见证了实验室从学术研究走向社会应用的努力,为实验室几年后开辟互联网产品设计的方向奠定了基础。
李京: 2007级硕士研究生。硕士论文对网络社区的舆情做了探索性研究。目前就职于国家民政局。
张有志: 2007年硕士研究生。就读期间参与“兜乐”项目研发,是兜乐客户端的骨干开发成员。基于兜乐项目的开发撰写了“协同标签推荐”的硕士论文。毕业后先后就职于人人网和小米科技。
吴懿咏: 2006级硕士研究生。先后从事了书目数据计量分类和分面分类的研究工作。在导师指导下的关于“中国数字图书馆发展”的论文被收入《中国图书馆年鉴》,并在《数字图书馆论坛》发表了“数字图书馆评价综述”的长篇研究论文。曾担任2008年北京奥运会媒体部实习,毕业后进入四大会计事务所之一毕马威。
王一丁: 2006级硕士研究生。大四进入实验室。本科毕业论文以语义网知识组织描述语言SKOS为题,该论文随后编入十一五规划教材《信息组织》。在硕士论文研究对大众分类法进行了探索,为实验室日后启动“兜乐”项目打下了基础。王一丁毕业后先后就职于“酷我”产品经理、百度地图产品经理。
李孟臣: 2006年硕士研究生。大四进入实验室,是杜威十进制法自动分类研究的核心成员,负责数据库管理、原始初数据处理和分类算法的实现。李孟臣开启了KVision实验室应用MS-SQL Server数据库的风气。给人印象极为深刻的是他善巧地应用数据库的存储过程实现多种分类算法对百万级的书目数据进行分类计算。毕业论文研究深入探索了Google学术搜索结果的自动分类。
税敏: 2005级硕士研究生。参与了杜威十进制分类法的自动分类研究工作,负责SVM算法的实现。毕业后进入中石化集团公司从事管理工作。
程煜华: 2005级硕士研究生。独立实现了KVision语义检索系统,该系统是实验室第一个利用语义网技术实现的原型系统,它将传统组织工具用RDF予以描述,作为用户检索前的词汇辅助、检索过程的概念检索扩展、检索后结果的归类处理。毕业后任职于万方数据公司,目前负责万方医学网的产品设计、开发与管理工作。
张丽: 2004级硕士研究生。与大四进入实验室,承担KVision第一代原型系统Vision概念检索系统的界面改造与系统重构工作。系统前端以Java来实现,后台以Oracle系统支持。研究生期间对已有的知识组织系统类型进行了深化研究。硕士论文对国会图书分类法到杜威十进制分类法的自动映射做了探索性研究。
葛宁: 2004级硕士研究生。大四进入实验室。葛宁是实验室多项研究工作的核心成员。在导师访美期间与导师远程合作完成了ADL数字地名表自动丰富的研究,随后参与了杜威十进制分类法的自动剪枝算法设计,并独立承担了美国国会主题词表的自动丰富研究。读书期间,葛宁参与了实验室的管理和建设工作,并在相当长的时间内负责课题组服务器的管理。毕业后仍然热心参与实验室的活动,关心实验室的发展,并为实验室的长远建设献计献策。
张贝妮: 2003级硕士毕业生。硕士毕业论文研究探索了在线新闻话题聚类算法研究。毕业后先后任职于豆瓣公司、百度公司。
崔健海: 2003级硕士研究生。是OCLC国际合作课题的骨干成员。负责课题组数据库的早期维护工作,并对英文MARC数据做了初步处理,为后期研究工作的开展准备了条件。硕士毕业论文研究对书目数据的自动分类做了初步探索。毕业后就职于中国公安大学图书馆。
齐华伟、常政、李晓栓: 2002级硕士研究生,是KVision实验室的第一届硕士研究生。参与了社会科学基金课题“个人数字图书馆”的研究工作。

本科生

沈昀浩、赵誉、卢晓航、彭悦、杨明仪、刘俊杰、陈诺、卞恩华、陈雨航等。
邓鹏、朱兴国、祖勇: 1998年本科生。参与了最初的KVision概念检索系统的原型开发,辅助实现了书目数据的词汇提取和词表自丰富算法。为KVision实验室的最初形成奠定了基础。