信息公告
活动预告丨4月30日第三届全国高校数据驱动创新研究大赛学术活动抢先看

 “学术活动”时间

4月30日,下午14:00—16:30

“学术活动”之一:“赛题解读”

主持人:丁华,研究员,北京大学中国社会科学调查中心

专题一:数据集检索方法研究
主讲人:王继民,教授,北京大学信息管理系
专题二:“中国家庭追踪调查”(CFPS)专题
主讲人:吴琼,副研究员,北京大学中国社会科学调查中心CFPS项目办公室主任
专题三:职业和行业自动编码
主讲人:陈欣欣,研究员,北京大学中国社会科学调查中心项目执行主管
专题五:企业经营范围文本分析:基于ESIEC数据的研究
主讲人:刘硕,北京大学企业大数据研究中心ESIEC项目技术主管

“赛题解读”内容

专题一:数据集检索方法研究

随着数据密集型科学研究范式的兴起,数据对科研的支撑作用日渐凸显。为了使研究人员更加方便、快捷的获取数据,需要有效的检索模型来提高数据的检索效果。本专题聚焦于:面向人文社会科学数据集的检索方法研究。本次“赛题解读”将介绍该专题所提供的数据集的内容、研究问题、技术方法、参考资料、研究成果的提交与评估等。


主讲人:王继民,教授,北京大学信息管理系
 
      预览
王继民教授

专题二:“中国家庭追踪调查”(CFPS)专题

“中国家庭追踪调查”(CFPS)由北京大学中国社会科学调查中心实施,旨在反映中国社会、经济、人口、教育和健康的变迁。CFPS在2010年开展基线访问,样本覆盖25个省/市/自治区,近15000户家庭,产生个人样本超过40000条。CFPS在2012、2014、2016、2018、2020年成功追踪基线界定的家庭和个人以及这些家庭的新进成员,目前已经发布五轮追踪型数据。
本专题包括两个分主题:
分主题1:专项数据集的创建
参赛者利用CFPS现有的基础数据集经过合并、重组、重新定义、重新编码等方式整理出更加方便使用的专题数据集。专项数据集包括但不限于如下任意一个方向:婚姻史、工作史、迁移史、祖孙数据、兄弟姐妹数据。
分主题2:基于多个数据源的数据分析
参赛者利用包括CFPS数据在内的多个数据源对特定主题进行分析,多个数据源可以用于数据合并,也可以进行跨调查的比较分析。


主讲人:
吴琼,副研究员,北京大学中国社会科学调查中心CFPS项目办公室主任。美国宾州州立大学教育与心理测量学博士、统计学硕士,加入调查中心之前,她就职于哈佛大学人口与发展研究中心。主要研究领域包括测量学方法、调查方法等。
 
      预览
吴琼

专题三:职业和行业自动编码

社会经济调查中为了准确搜集受访者的职业和行业等相关信息,一般会让访员如实直接记录受访者的答案。但直接采集的信息标准化程度低,不便于数据用户的使用。组委会将在竞赛平台上提供社会经济调查中采集的部分职业和行业具体文字描述信息以及相应的编码代码,要求参赛者基于数据(可从大赛专用开放数据平台上下载数据),构建自动编码模型。组委会将利用该模型,应用于其他已成功人工编码的数据进行验证,并基于模型预测的准确度,评判模型的优劣。


主讲人:
陈欣欣,北京大学中国社会科学调查中心研究员,浙江大学管理学博士。自2014年以来,组织实施过多次全国代表性大型数据库的数据采集工作。其研究兴趣集中在微观发展经济学、老年经济学和社会科学调查理论和方法。
 
      预览
陈欣欣

专题五:企业经营范围文本分析:基于ESIEC数据的研究

“企业经营范围”是企业在工商注册时填报的从事经营活动的业务范围,是一段中文文本信息。本研究主题提供基于中国企业创新创业调查(ESIEC)的企业经营范围和企业实际的经营特征,参赛者需要提取“企业经营范围”文本的特征,并预测企业实际经营的特征。本选题不局限于以特征预测为唯一测评指标,对“企业经营范围文本”的独到分析亦可单独成题。


主讲人:
刘硕,北京大学企业大数据研究中心实验室主管,中国企业创新创业调查(ESIEC)技术主管。参与ESIEC2018至今的历年调查,主持开发ESIEC2019调研系统,为北京大学企业大数据研究中和中国企业创新创业调查联盟提供数据平台支持。领域:全栈开发、数据处理、数据平台。
 
      预览
刘硕
直播地址: 点击进入


直播二维码:
 
      预览