欢迎访问中国统计学会中国统计科学研究网

　　全国统计科学研究项目（2022LZ25）由东北财经大学孙旭主持。该研究以我国大型社会调查中行、职业填报文字的编码为对象，围绕编码的智能模型构建和质量控制两方面开展研究。针对中国人口普查、劳动力调查等多项大型社会调查中行、职业编码智能化的现实需要，利用机器学习和文本挖掘技术，组合浅层机器学习与深度学习文本分类算法，以“中国家庭追踪调查”的行、职业填报文字和编码结果为训练资料，分别构建适应中文环境、兼顾不同行、职业层级和类别效度需求的行、职业编码模型。基于智能编码结果，从受访者及填报文字特征、行、职业分类标准层级和类别特征、训练资料与编码模型性能特征三方面，分析影响智能编码质量的特征因素。进而提出搭建从行、职业信息采集到编码的全链条智慧数据管理平台的构想，实现对大型社会调查中行、职业数据质量的精细化管理。