Qinqing Zheng

Member of Technical Staff, Inception

zhengqinqing (at) gmail (dot) com

Google Scholar GitHub

About

I am a ML researcher. Currently, I lead reinforcement learning for diffusion language models at Inception.
Previously, I was on the Llama research team, specializing in post-training for reasoning. Within that effort, I spearheaded the development of the practical domain (non-math/non-coding) expert model. Before that, I worked at FAIR on a combination of RL, diffusion, and LLM reasoning.
I received my Ph.D.from UChicago, advised by Prof. John Lafferty (a truly fortunate experience!). My doctoral research combined theory and practice, with a focus on exact solutions for nonconvex optimization problems.

Earlier, I was a research scientist at Facebook, where I helped build the distributed training system supporting Ads ranking. I also worked as a postdoc researcher in Wharton Statistics, focusing on differential privacy and statistical inference.

Papers

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
Siyan Zhao*, Devaansh Gupta*, Qinqing Zheng†, Aditya Grover†
NeurIPS 2025 (Spotlight)
[paper] [code]
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning
DiJia Su, Hanlin Zhu*, Yingchen Xu*, Jiantao Jiao, Yuandong Tian†, Qinqing Zheng†
ICML 2025
[paper]
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback
Qinqing Zheng*, Mikael Henaff*, Amy Zhang, Aditya Grover, Brandon Amos
RLC 2025
[paper] [code]
Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
DiJia Su, Sainaa Sukhbaatar, Michael Rabbat, Yuandong Tian, Qinqing Zheng
ICLR 2025
[paper] [code]
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping
Lucas Lehnert, Sainaa Sukhbaatar, DiJia Su, Qinqing Zheng, Paul Mcvay, Michael Rabbat, Yuandong Tian
COLM 2024
[paper] [code]
Diffusion World Model: Future Modeling Beyond Step-by-Step Rollout for Offline Reinforcement Learning
Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
ICLR 2024 Generative Models for Decision Making Workshop
[paper]
Guided Flows for Generative Modeling and Decision Making
Qinqing Zheng, Matt Le, Neta Shaul, Yaron Lipman, Aditya Grover, Ricky T. Q. Chen
[paper]
Dual RL: Unification and New Methods for Reinforcement and Imitation Learning
Harshit Sikchi, Qinqing Zheng, Amy Zhang, Scott Niekum
ICLR 2024 (Spotlight)
[paper] [code]
Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories
Qinqing Zheng, Mikael Henaff, Brandon Amos, Aditya Grover
ICML 2023
[paper] [code]
ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement Learning
Tung Nguyen, Qinqing Zheng, Aditya Grover
NeurIPS 2022 Foundation Models for Decision Making Workshop
[paper] [code]
Latent State Marginalization as a Low-cost Approach for Improving Exploration
Dinghuai Zhang, Aaron Courville, Yoshua Bengio, Qinqing Zheng, Amy Zhang, Ricky T. Q. Chen
ICLR 2023
[paper]
Online Decision Transformer
Qinqing Zheng, Amy Zhang, Aditya Grover
ICML 2022 (Long Oral Presentation)
[paper] [code] [poster]
Near-Optimal Confidence Sequences for Bounded Random Variables
Arun Kumar Kuchibhotla*, Qinqing Zheng* (*Equal contribution)
ICML 2021 (Spotlight)
[paper] [code]
A Theorem of the Alternative for Personalized Federated Learning
Shuxiao Chen, Qinqing Zheng, Qi Long, Weijie Su
Submitted.
[paper]
Federated \(f\)-Differential Privacy
Qinqing Zheng, Shuxiao Chen, Qi Long, Weijie Su
AISTATS 2021
[paper] [code]
Sharp Composition Bounds for Gaussian Differential Privacy via Edgeworth Expansion
Qinqing Zheng, Jinshuo Dong, Qi Long, Weijie Su
ICML 2020
[paper] [code]
ShadowSync: Performing Synchronization in the Background for Highly Scalable Distributed Training
Qinqing Zheng, Bor-Yiing Su, Jiyan Yang, Alisson Azzolini, Qiang Wu, Ou Jin, Shri Karandikar, Hagay Lupesko, Liang Xiong, Eric Zhou
[paper]
Convergence Analysis for Rectangular Matrix Completion Using Burer-Monteiro Factorization and Gradient Descent
Qinqing Zheng, John Lafferty
[paper]
A Convergent Gradient Descent Algorithm for Rank Minimization and Semidefinite Programming from Random Linear Measurements
Qinqing Zheng, John Lafferty
NeurIPS 2015
[paper] [poster]
Interpolating Convex and Non-Convex Tensor Decompositions via the Subspace Norm
Qinqing Zheng , Ryota Tomioka
NeurIPS 2015
[paper] [code] [poster]

Talks

Princeton University, Nov 2022
UC Berkeley, March 2022
Minisymposium on Non-Convex Optimization for Low Complexity Models: Theory and Applications, SIAM Optimization Conference, May 2017
Microsoft Cambridge Research Seminar, UK, March 2017
SILO Seminar Series, University of Wisconsin Madison, Jan 2017
Ming Hsieh Institute Series on Mathematical Foundations of Learning from Signals and Data, USC, Dec 2016

Review

Conference: ICML, NeurIPS, AISTATS, ICLR
Journal: Journal of Machine Learning Research (Editorial Board Reviewer), IEEE Transactions on Signal Processing, Annals of Statistics