Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

26,879

Full-text search

Active filters: 8-bit

nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

Text Generation • 18B • Updated 3 days ago • 31.8k • 53

openai/gpt-oss-120b

Text Generation • 120B • Updated Aug 26, 2025 • 2.88M • • 4.43k

openai/gpt-oss-20b

Text Generation • 22B • Updated Aug 26, 2025 • 6.08M • • 4.28k

microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated Dec 17, 2025 • 6.21k • 1.28k

GadflyII/GLM-4.7-Flash-NVFP4

Text Generation • 18B • Updated 13 days ago • 216k • 54

openai/gpt-oss-safeguard-20b

Text Generation • 22B • Updated 19 days ago • 23.4k • • 187

unsloth/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

Text Generation • 18B • Updated 4 days ago • 57 • 5

mlx-community/Qwen3-ASR-1.7B-8bit

0.8B • Updated 4 days ago • 225 • 5

lukealonso/MiniMax-M2.1-NVFP4

115B • Updated 27 days ago • 26.8k • 21

lmstudio-community/GLM-4.7-Flash-MLX-8bit

Text Generation • 30B • Updated 11 days ago • 579k • 7

mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-8bit

Text-to-Speech • 0.8B • Updated 7 days ago • 673 • 4

nvidia/DeepSeek-R1-NVFP4

Text Generation • 397B • Updated Jun 6, 2025 • 9.96k • 270

FabioSarracino/VibeVoice-Large-Q8

Text-to-Audio • 9B • Updated Oct 1, 2025 • 2.59k • 81

nvidia/NVIDIA-Nemotron-Nano-12B-v2-VL-NVFP4-QAD

Image-Text-to-Text • 8B • Updated Nov 13, 2025 • 35.7k • 17

GadflyII/GLM-4.7-Flash-MXFP4

Text Generation • 18B • Updated 7 days ago • 1.2k • 5

mlx-community/Jan-v3-4B-base-instruct-8bit

Text Generation • 1B • Updated 6 days ago • 64 • 3

nvidia/NVIDIA-Nemotron-Nano-9B-v2-NVFP4

Text Generation • 6B • Updated 25 days ago • 11.2k • 17

RedHatAI/Qwen3-VL-235B-A22B-Instruct-NVFP4

Text Generation • 133B • Updated Dec 4, 2025 • 12.3k • 9

ig1/Qwen3-VL-30B-A3B-Instruct-NVFP4

Image-Text-to-Text • 18B • Updated 22 days ago • 2.63k • 6

kldzj/gpt-oss-120b-heretic-v2

Text Generation • 117B • Updated Nov 18, 2025 • 359 • 18

Salyut1/GLM-4.7-NVFP4

Text Generation • 177B • Updated Dec 23, 2025 • 5.5k • 12

Tengyunw/GLM-4.7-NVFP4

Text Generation • 177B • Updated Dec 26, 2025 • 2.06k • 6

mlx-community/GLM-4.7-Flash-8bit

Text Generation • 30B • Updated 8 days ago • 12.8k • 17

MaziyarPanahi/rank_zephyr_7b_v1_full-GGUF

Text Ranking • 7B • Updated Apr 2, 2025 • 119 • 6

StefanKrsteski/Phi-3-mini-4k-instruct-GPTQ-8bit

Text Generation • 4B • Updated Jun 8, 2024 • 6 • 1

MaziyarPanahi/Meta-Llama-3.1-8B-Instruct-GGUF

Text Generation • 8B • Updated Jul 23, 2024 • 139k • 33

yujiepan/mixtral-8xtiny-random-openvino-8bit

Text Generation • Updated Sep 4, 2024 • 15 • 1

HF1BitLLM/Llama3-8B-1.58-100B-tokens

Text Generation • 3B • Updated Sep 19, 2024 • 1.34k • 201

MaziyarPanahi/Qwen2.5-1.5B-Instruct-GGUF

Text Generation • 2B • Updated Sep 18, 2024 • 138k • 10

nvidia/Llama-3.1-405B-Instruct-NVFP4

230B • Updated Feb 26, 2025 • 890 • 8