Publications | Kangning Zhang

^* indicates equal contribution. First/co-first-author papers are highlighted.

MMSkills: Towards Multimodal Skills for General Visual Agents

Kangning Zhang*, Shuai Shao*, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, and Yong Yu

arXiv preprint, 2026

Project Page Paper Code Dataset

MMSkills represents reusable multimodal procedural knowledge for visual agents with textual procedures, runtime state cards, and multi-view keyframes, then uses branch loading to consult relevant visual evidence during decision making.

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Kangning Zhang, Wenxiang Jiao, Kounianhua Du, Yuan Lu, Weiwen Liu, Weinan Zhang, and Yong Yu

Annual Meeting of the Association for Computational Linguistics (ACL), 2026

Main Conference

Paper Code

LoopTool closes the data-training loop for LLM tool use by evolving training data around a model's current weaknesses, improving robustness for multi-step tool-calling tasks.

AlignRec: Aligning and Training in Multimodal Recommendations

Yifan Liu*, Kangning Zhang*, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Yong Yu, and Weinan Zhang

ACM International Conference on Information and Knowledge Management (CIKM), 2024

Paper Code

AlignRec studies representation misalignment in multimodal recommendation and introduces alignment-aware training for stronger multimodal user-item features.

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

Yanjie Ze*, Gu Zhang*, Kangning Zhang, Chenyuan Hu, Muhan Wang, and Huazhe Xu

Robotics: Science and Systems (RSS), 2024

Project Page Paper Code Video

3D Diffusion Policy introduces compact point-cloud representations into diffusion-policy imitation learning for stronger robot manipulation generalization.

Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation

Kangning Zhang, Jiarui Jin, Yingjie Qin, Ruilong Su, Jianghao Lin, Yong Yu, and Weinan Zhang

European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD), 2026

CCF-B

Paper

MOTOR replaces item ID embeddings with learnable multimodal tokens and a token-crossing network, reducing reliance on sparse ID features.

DiffCold: A Diffusion-based Generative Model for Cold-Start Item Recommendation

Kangning Zhang, Yingjie Qin, Weinan Zhang, Yong Yu, and Jianghao Lin

European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD), 2026

CCF-B

Paper

DiffCold tackles cold-start recommendation with diffusion-based representation simulation, retrieval-enhanced aggregation, and representation alignment for cold items.

SWE-Cycle: Benchmarking Code Agents across the Complete Issue Resolution Cycle

Hao Guan, Lingyue Fu, Shao Zhang, Yaoming Zhu, Kangning Zhang, Lin Qiu, Xunliang Cai, Xuezhi Cao, Weiwen Liu, Weinan Zhang, and Yong Yu

arXiv preprint, 2026

Paper

SWE-Cycle evaluates code agents across environment reconstruction, implementation, test generation, and a full-cycle issue-resolution task.

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Shijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, and Zongyuan Ge

arXiv preprint, 2026

Paper

MuSEAgent distills interaction histories into stateful decision experiences and retrieves them through complementary search strategies for multimodal reasoning.

Fints: Efficient Inference-Time Personalization for LLMs with Fine-Grained Instance-Tailored Steering

Kounianhua Du, Jianxing Liu, Kangning Zhang, Wenxiang Jiao, Yuan Lu, Jiarui Jin, Weiwen Liu, Yong Yu, and Weinan Zhang

arXiv preprint, 2025

Paper Code

Fints performs inference-time personalization by selecting fine-grained, instance-tailored steering signals for dynamic user preferences and sparse personalization data.

A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models

Congmin Zheng, Jiachen Zhu, Zhuoying Ou, Yuxiang Chen, Kangning Zhang, Rong Shan, Zeyu Zheng, Mengyue Yang, Jianghao Lin, Yong Yu, and Weinan Zhang

Annual Meeting of the Association for Computational Linguistics (ACL), 2026

Main Conference

Paper

This survey reviews process reward models across process data construction, reward modeling, test-time scaling, and reinforcement learning for large language models.

An Automatic Graph Construction Framework based on Large Language Models for Recommendation

Rong Shan, Jianghao Lin, Chenxu Zhu, Bo Chen, Menghui Zhu, Kangning Zhang, Jieming Zhu, Ruiming Tang, Yong Yu, and Weinan Zhang

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2025

Paper Code

This framework uses large language models to automate graph construction for recommendation, improving the graph learning substrate used by GNN-based recommenders.

ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction

Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, and Weinan Zhang

The ACM Web Conference (WWW), 2024

Paper Code

ClickPrompt adapts language models to CTR prediction by using CTR models as prompt generators, combining semantic and collaborative signals.

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, and Yong Yu

arXiv preprint, 2023

Paper Code

CodeApex is a bilingual benchmark for evaluating large language models on programming comprehension, code generation, and code correction.