Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

27,009

Full-text search

Active filters: 8-bit

mlx-community/Qwen2.5-14B-Instruct-1M-8bit

Text Generation • 4B • Updated Jan 26, 2025 • 95 • 9

MaziyarPanahi/Mistral-Small-24B-Instruct-2501-GGUF

Text Generation • 24B • Updated Jun 23, 2025 • 152k • 8

MaziyarPanahi/Captain-Eris_Violet_Toxic-Magnum-12B-GGUF

Text Generation • 12B • Updated Feb 10, 2025 • 120 • 4

driaforall/Tiny-Agent-a-3B-Q8-mlx

0.9B • Updated Feb 11, 2025 • 15 • 4

driaforall/Tiny-Agent-a-1.5B-Q8-mlx

0.4B • Updated Feb 11, 2025 • 8 • 3

driaforall/Tiny-Agent-a-0.5B-Q8-mlx

0.1B • Updated Feb 12, 2025 • 4 • 3

nvidia/DeepSeek-R1-NVFP4

Text Generation • 397B • Updated Jun 6, 2025 • 19.2k • 271

tiiuae/Falcon-E-1B-Base

Text Generation • 0.5B • Updated Oct 7, 2025 • 111 • 10

nvidia/Llama-4-Scout-17B-16E-Instruct-NVFP4

56B • Updated Dec 12, 2025 • 20.2k • 20

tiiuae/Falcon-E-3B-Base

Text Generation • 0.9B • Updated Oct 7, 2025 • 61 • 13

tiiuae/Falcon-E-3B-Instruct

Text Generation • 0.9B • Updated Oct 7, 2025 • 443 • 37

MaziyarPanahi/Qwen3-30B-A3B-GGUF

Text Generation • 31B • Updated Apr 29, 2025 • 232k • 4

Qwen/Qwen3-1.7B-GPTQ-Int8

Text Generation • 2B • Updated May 21, 2025 • 1.39k • 7

Qwen/Qwen3-0.6B-GPTQ-Int8

Text Generation • 0.6B • Updated May 21, 2025 • 3.66k • 8

Qwen/Qwen3-0.6B-MLX-8bit

Text Generation • 0.2B • Updated Jul 7, 2025 • 929 • 4

Qwen/Qwen3-1.7B-MLX-8bit

Text Generation • 0.5B • Updated Jul 7, 2025 • 837 • 3

Qwen/Qwen3-8B-MLX-8bit

Text Generation • 2B • Updated Jul 7, 2025 • 11.5k • 8

Qwen/Qwen3-14B-MLX-8bit

Text Generation • 4B • Updated Jul 7, 2025 • 907 • 4

Qwen/Qwen3-4B-MLX-8bit

Text Generation • 1B • Updated Jul 7, 2025 • 873 • 3

nvidia/DeepSeek-R1-0528-NVFP4

Text Generation • 397B • Updated Aug 22, 2025 • 15.2k • 41

Qwen/Qwen3-32B-MLX-8bit

Text Generation • 9B • Updated Jul 7, 2025 • 1k • 11

Qwen/Qwen3-30B-A3B-MLX-8bit

Text Generation • 8B • Updated Jul 7, 2025 • 163 • 9

Qwen/Qwen3-235B-A22B-MLX-8bit

Text Generation • 62B • Updated Jul 7, 2025 • 186 • 9

nvidia/Qwen3-235B-A22B-NVFP4

Text Generation • 133B • Updated Jul 8, 2025 • 5.03k • 14

mlx-community/LFM2-350M-8bit

Text Generation • 99.7M • Updated Jul 11, 2025 • 252 • 4

huizimao/gpt-oss-120b-uncensored-mxfp4

117B • Updated Aug 11, 2025 • 372 • 6

driaforall/mem-agent-mlx-8bit

Text Generation • 1B • Updated Sep 9, 2025 • 11 • 2

shanjiaz/gpt-oss-120b-nvfp4-modelopt

59B • Updated Sep 24, 2025 • 9.08k • 2

EpistemeAI/Episteme-gptoss-20b-RL

Text Generation • 22B • Updated Oct 20, 2025 • 2 • 2

FabioSarracino/VibeVoice-Large-Q8

Text-to-Audio • 9B • Updated Oct 1, 2025 • 2.14k • 83