全国统计科学研究项目(2022LZ25)由东北财经大学孙旭主持。该研究以我国大型社会调查中行、职业填报文字的编码为对象,围绕编码的智能模型构建和质量控制两方面开展研究。针对中国人口普查、劳动力调查等多项大型社会调查中行、职业编码智能化的现实需要,利用机器学习和文本挖掘技术,组合浅层机器学习与深度学习文本分类算法,以“中国家庭追踪调查”的行、职业填报文字和编码结果为训练资料,分别构建适应中文环境、兼顾不同行、职业层级和类别效度需求的行、职业编码模型。基于智能编码结果,从受访者及填报文字特征、行、职业分类标准层级和类别特征、训练资料与编码模型性能特征三方面,分析影响智能编码质量的特征因素。进而提出搭建从行、职业信息采集到编码的全链条智慧数据管理平台的构想,实现对大型社会调查中行、职业数据质量的精细化管理。