CMoE: turn dense FFNs into MoE in minutes to get ~1.4–1.6× end-to-end speedups

Overview

Decision SnapshotReady For Pilot

CMoE shows clear speed/quality trade-offs with measured PPL and speedups; training-free results + small LoRA fine-tune make it practical for many deployments.

Citations0

Evidence Strength0.80

Confidence0.80

Risk Signals9

Trust Signals

Findings with numeric evidence: 5/5

Findings with evidence refs: 5/5

Results with explicit delta: 5/5

Reproducibility

Status: Code + data available

Open source: Partial

At A Glance

Cost impact: 70%

Production readiness: 70%

Novelty: 60%

Authors

Zehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

Links

Abstract / PDF / Code

Why It Matters For Business

CMoE lets teams cut LLM inference cost quickly by turning FFNs sparse without long retraining, enabling faster deployment and cheaper serving while allowing small targeted fine-tunes to regain quality.

Who Should Care

CTO Product Manager ML Engineer Engineering Lead Data Scientist

Summary TLDR

CMoE converts a dense LLM's FFN layers into a sparse Mixture-of-Experts (MoE) structure without gradient training. It groups neurons into always-on shared experts and clustered routed experts using activation statistics from a tiny calibration set, then analytically initializes a differentiable router. Training-free conversions give usable perplexity; with 25% active experts you can get ≈1.5× end-to-end latency reduction, and a short LoRA fine-tune (2k samples, ~1 hour) recovers most accuracy.

Problem Statement

Large LLMs spend ~70% of inference compute in FFNs. Existing MoE conversions need expensive continual pre-training to avoid quality collapse. The problem: how to restructure a dense model into an MoE quickly, with little or no training, and still get real inference speedups without large quality loss.

Main Contribution

Training-free conversion pipeline that reorganizes FFN neurons into shared and routed experts using activation statistics and balanced assignment; runs in minutes on one GPU.

Analytical construction of a differentiable router from representative neuron activations, enabling immediate use and optional light fine-tuning.

Key Findings

Training-free CMoE is usable immediately: 25% activation gives practical perplexity without training.

NumbersWikiText-2 PPL: Dense 5.27, CMoE 25% TF 62.30; CMoE 25% FT 12.73 (Table 1)

Practical UseYou can deploy CMoE with no training for quick inference gains and then optionally fine-tune with a small dataset to recover most quality.

Evidence RefTable 1

End-to-end latency improves substantially at high sparsity settings.

NumbersS1A1E8 (25% act): FFN speedup 3.6×, full-model speedup 1.5× (Table 3)

Practical UseFor throughput-focused inference (large batches), switching to a 25% active-expert CMoE can cut latency ~1.5× while reducing FFN compute by ~3–4×.

Evidence RefTable 3

Results

Metric	Value	Baseline	Delta	Split / Dataset	Evidence	Evidence Ref
WikiText-2 perplexity (Llama-2 7B)	Dense 5.27; CMoE 75% TF 7.02; CMoE 75% FT 5.69	Dense 5.27	75% FT ~+0.42 PPL vs dense	WikiText-2	Table 1 (Llama-2 7B columns)	Table 1
WikiText-2 perplexity (25% activation, Llama-2 7B)	CMoE TF 62.30; CMoE FT 12.73	Dense 5.27	TF large degradation; FT narrows gap to ~+7.46 PPL	WikiText-2	Table 1 (Llama-2 7B)	Table 1

What To Try In 7 Days

Run CMoE conversion on a dev checkpoint with 8–32 domain calibration examples to validate immediate quality.

Test 25% and 75% activation configs to map your desired quality vs latency points.

If quality is low, run a 2k-sample LoRA fine-tune (~1 hour) and re-measure downstream accuracy and latency.

Optimization Features

Infra Optimization

single-GPU, minutes-long conversionbetter throughput at large batch sizes

Model Optimization

sparsity (FFN neuron grouping)MoE

System Optimization

balanced expert assignment to reduce routing skewload-balancing bias updates

Training Optimization

training-free conversionLoRA

Inference Optimization

FFN skipping via sparse expertsanalytical router to avoid router training

Reproducibility

Code AvailableYes

Data AvailableYes

Open Source StatusPartial

LicenseUnknown

Code URLs

https://github.com/JarvisPei/CMoE

Risks & Boundaries

Limitations

Calibration effectiveness depends on domain match; domain mismatch hurts PPL (paper notes calibration sensitivity).

Training-free router may miss routing nuances that full router training captures; extra fine-tuning sometimes needed.

When Not To Use

When you need strictly identical model outputs with zero quality drop and cannot fine-tune.

When you lack any small set of representative calibration examples for your domain.

Failure Modes

Large quality collapse if conversion method or initialization differs (other MoE conversions collapsed without training).

Expert load imbalance if load-balancing is disabled, causing slowdowns or degraded accuracy.

Core Entities

Models

Llama-2 7BLlama-3 8BLlama-2 13BPythia-1.0BTinyLlama-1.1B

Metrics

PerplexityAccuracyFFN speedupEnd-to-end speedup

Datasets

WikiText-2C4SlimPajama

Benchmarks

BoolQSciQPIQAWinograndeARC-ChallengeHellaSwag

Overview

Trust Signals

Reproducibility

At A Glance

Authors

Links

Why It Matters For Business

Who Should Care

Summary TLDR

Problem Statement

Main Contribution

Key Findings

Training-free CMoE is usable immediately: 25% activation gives practical perplexity without training.

End-to-end latency improves substantially at high sparsity settings.

Results

What To Try In 7 Days

Optimization Features

Reproducibility

Code URLs

Risks & Boundaries

Limitations

When Not To Use

Failure Modes

Core Entities

Models

Metrics

Datasets

Benchmarks

You May Also Want to Read

Large-scale empirical benchmark showing how attention variants, PEFT, MoE, and int4 quantization trade performance for memory, latency, and

Key finding

Decouple concepts from language: an MoE design that keeps strong multilingual accuracy and cuts token costs

Key finding

Cut MoE batch decoding latency by re-routing tokens to similar experts with a one-line vLLM change

Key finding

Fine-grained Mixture-of-Experts (G=8) cuts training steps and improves accuracy at 56B scale

Key finding

Post-training NAS (Puzzle) compresses gpt-oss-120B into gpt-oss-puzzle-88B to cut KV-cache and MoE costs while retaining reasoning quality

Key finding