Experiences

Nvidia.

Feb 2024 - Aug 2024

Beijing, China

Conduct Research about FP8 Training for Large Language Models. Advised by Prof.Song Han.

Research Intern

Feb 2024 - Aug 2024

Responsibilities:

Propose a Memory Efficient FP8 Training method, COAT that Compress Optimizer states and Activations for FP8 Training.
Publish a first author paper and is accepted by ICLR 2025. Code is open-sourced at code
Participate in NVILA Project, responsible for the FP8 training of vision language models.

Selected Publications

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

ICML 2025 Feb 2025

Haocheng Xi* Shuo Yang* Yilong Zhao Chenfeng Xu Muyang Li Xiuyu Li Yujun Lin Han Cai Jintao Zhang Dacheng Li Jianfei Chen Ion Stoica Kurt Keutzer Song Han

We identify the spatial head and temporal head pattern in attention map and propose to use sparse attention to accelerate. Achieves up to 2.28x and 2.33x end-to-end speedup on CogVideoX-v1.5 and HunyuanVideo.

efficient video generation sparse attention

Details

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

ICML 2025 Feb 2025

Rishabh Tiwari* Haocheng Xi* Aditya Tomar Coleman Hooper Sehoon Kim Maxwell Horton Mahyar Najibi Michael W. Mahoney Kurt Keutzer Amir Gholami

We propose a self-speculative decoding framework, QuantSpec, to speedup long-context inference. QuantSpec maintains high acceptance rates (>90%) and reliably provides consistent end-to-end speedups upto ∼ 2.5×.

long context generation KV cache compression

Details

COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

ICLR 2025 Oct 2024

Haocheng Xi Han Cai Ligeng Zhu Yao Lu Kurt Keutzer Jianfei Chen Song Han

We propose Dynamic range expansion for FP8 optimizer, and propose FP8 precision flow for FP8 activations. Achieve Lossless performance, end-to-End 1.54x memory reduction and 1.43x training speedup over BF16.

FP8 training memory efficient training

Details

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

ICML 2024 (Spotlight) Mar 2024

Haocheng Xi Yuxiang Chen Kang Zhao Kai Jun Teh Jianfei Chen Jun Zhu

We propose a new method for efficient and accurate transformer pretraining with INT8 data flow and per-block quantization. Demonstrate effectiveness on GPT2-774M model. Achieve End-to-End 1.42x training speedup and 1.49x memory reduction.

INT8 training per-block quantization

Details

Training Transformers with 4-bit Integers

NeurIPS 2023 Jun 2023

Haocheng Xi Changhao Li Jianfei Chen Jun Zhu

Propose Hadamard Quantizer and Leverage Score Sampling to enable INT4 Precision Matmul in training for speedup. Both the forward and backward pass are quantized into INT4 precision for maximized speedup. Outperforms all existing 4-bit training baselines.

INT4 training Hadamard Quantizer

Details

Projects

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

Co-First Author Sep 2024 - Feb 2025

sparsity inference

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

Co-First Author Sep 2024 - Feb 2025

quantization inference

COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

First Author Feb 2024 - Sep 2024

quantization training

NVILA: Efficient Frontier Visual Language Models

Contributor Mar 2024 - Nov 2024

We propose a new frontier of visual language models, NVILA, to achieve reduces training costs by 4.5X, fine-tuning memory usage by 3.4X, pre-filling latency by 1.6-2.2X, and decoding latency by 1.2-2.8X.

quantization training inference

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Contributor Sep 2024 - Feb 2025

We propose SpargeAttn, a universal sparse and quantized attention for any model inference. Our method uses a two-stage online filter to select the most important tokens.

sparsity inference

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

First Author Sep 2023 - Jan 2024

Propose to INT8 precision flow and per-block quantization to enable INT8 pretraining of transformers. Demonstrate effectiveness on GPT2-774M model. Achieve End-to-End 1.42x training speedup and 1.49x memory reduction.

quantization training

Training Transformers with 4-bit Integers

First Author Apr 2022 - Dec 2022

quantization training

Hi, I am Haocheng

Haocheng Xi

MLsys Researcher at University of California, Berkeley

Experiences

Nvidia.

Research Intern

Responsibilities:

Education

University of California, Berkeley

Ph.D in Computer Science, advised by Prof.Kurt Keutzer

GPA: 4 out of 4

Publications:

Extracurricular Activities:

Tsinghua University

B.E. in Yao Class, Computer Science. Advised by Prof.Jianfei Chen and Prof.Jun Zhu

GPA: 3.83 out of 4

Publications:

Selected Publications

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

Training Transformers with 4-bit Integers

Projects

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training

NVILA: Efficient Frontier Visual Language Models

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

Training Transformers with 4-bit Integers

Skills

Pytorch

Python

CUDA

LaTeX

Reviewers

Featured Posts

		University of California, Berkeley 2024-Present Ph.D in Computer Science, advised by Prof.Kurt Keutzer GPA: 4 out of 4 Publications: [ICML 2025] Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [ICML 2025] QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [ICLR 2025] COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [CVPR 2025]NVILA: Efficient Frontier Visual Language Models [ICML 2025] SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference Extracurricular Activities: Sports - Soccer, Badminton, Pooling. Photography
		Tsinghua University 2020-2024 B.E. in Yao Class, Computer Science. Advised by Prof.Jianfei Chen and Prof.Jun Zhu GPA: 3.83 out of 4 Publications: [NeurIPS 2023] Training Transformers with 4-bit Integers [ICML 2024] Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization [ICML 2025] Oscillation-Reduced MXFP4 Training for Vision Transformers