6月4日下午,中国科学院王启华教授应邀来我校开展以“Multi-Source Sufficient Dimension Reduction via Adaptive Penalization and Subspace Fusion”为主题的学术讲座。本次讲座在综合楼615会议室举行,由统计与数据科学学院蔡利副教授主持。

王启华,中国科学院数学与系统科学研究院研究员,博士生导师,国家级高层次人才。曾在北京大学、香港大学任教,先后访问加拿大、美国、德国及澳大利亚10多所世界一流大学。主要从事复杂数据经验似然统计推断、缺失数据分析、高维数据统计分析、大规模数据分析等方面的研究,出版专著三部,在Journal of the Royal Statistical Society Series B (JRSSB), The Annals of Statistics, Journal of the American Statistical Association (JASA)及Biometrika等国际重要刊物发表论文150余篇。部分工作已产生持久不断的学术影响。曾主持国家杰出青年基金项目、重点项目、多项面上项目,作为核心骨干成员先后参加了两项国家自然科学基金创新群体项目及一项国家重点研发计划项目。

王启华教授结合大数据应用现状指出,在多机构协作研究中,受隐私规则、传输开销与硬件算力限制,原始数据往往难以互通,各主体通常只能提交精简统计数据。与此同时,现行主流降维算法多默认采集数据不存在抽样偏差,但在现实调研中,由抽样疏漏造成的偏误数据较为普遍。若直接合并此类数据,可能影响模型建模精度。此外,即使不同数据源具有相同的降维维度,其内部空间结构仍可能存在差异,仅依靠维度筛选难以剔除全部无效样本。因此,现有分布式降维方案在真实业务场景中的适配性仍有待提升。
针对上述痛点,王启华教授介绍了团队历时两年、多轮修订形成的系列成果,依次推出RGL、APSL、SAPSL三类逐层优化的计算框架,适配维度确定与维度未知两类研究环境,通过空间距离测算和自适应惩罚机制筛选偏误数据源,并同步完成子空间结构与维度的量化求解。研究经数值模拟与实测数据检验,验证了新模型相较传统算法的性能优势。最后,王教授围绕高维运算优化、大比例偏倚数据识别和隐私环境下分布式算法落地等方向作了梳理。
讲座尾声,王启华教授与在场师生围绕偏倚数据源最大容忍比例、传统分布式降维方法的改进思路等问题展开了热烈的研讨,并结合航空、行为统计等行业实例进行了细致解答。最后,蔡利副教授对本次讲座作总结发言,诚挚感谢王启华教授带来的前沿学术分享,也感谢在场师生的积极参与和热烈互动。
图文丨方铨马宇韬
