Models

54

Full-text search

Active filters: PPO

fb700/chatglm-fitness-RLHF

Updated Mar 6, 2024 • 268

fb700/Bofan-chatglm-Best-lora

Updated Aug 24, 2023 • 1 • 11

sehyun66/Tiny-lama-1.3B-chat-ppo

Question Answering • Updated Jan 13, 2024

Lichang-Chen/ODIN-ppo-L230-best

Text Generation • Updated Feb 14, 2024 • 3

vibhorg/rl4llm_uofm_nlpo_super_t5_arxiv

Updated Mar 20, 2024 • 1

vibhorg/rl4llm_uofm_nlpo_unsuper_t5_arxiv

Updated Mar 20, 2024

Fizzarolli/sapphia-410m-RM

Updated Apr 2, 2024 • 2

pt-sk/GPT2-IMDB-Sentiment-FineTuned-with-PPO

Text Generation • 0.1B • Updated Jun 25, 2024 • 2

pt-sk/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 15, 2024

Kwaai/GPT2_NonToxic

Text Generation • 0.1B • Updated Jul 20, 2024 • 1

Nagi-ovo/Llama-3-8B-PPO

Text Generation • 8B • Updated Jan 21, 2025 • 5

sthenno/tempesthenno-ppo-ckpt40

15B • Updated Feb 19, 2025 • 4 • 4

xi0v/tempesthenno-ppo-ckpt40-archive

15B • Updated Mar 4, 2025

Teen-Different/RxRovers_Roaming_for_Rapid_Relief

Reinforcement Learning • Updated Mar 30, 2025

estnafinema0/smolLM-variation-ppo

Text Generation • 0.1B • Updated Mar 30, 2025 • 1

FlameF0X/CanoPy

Reinforcement Learning • Updated Sep 5, 2025

AntonDergunov/LunarLander_PPO

Reinforcement Learning • Updated Oct 5, 2025

Tanaybh/lunar-lander-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 1

Tanaybh/bipedal-walker-ppo

Reinforcement Learning • Updated Sep 21, 2025 • 2

HYDARIM7/SmolLM2_RLHF_PPO_HY

Reinforcement Learning • 0.1B • Updated Sep 21, 2025

ahan2000/Qwen2.5-FT-Deploy

Text Generation • 8B • Updated Sep 26, 2025

Vibudhbh/lander-ppo_rl

Reinforcement Learning • Updated Oct 2, 2025 • 6

Vibudhbh/bipedal-walker-ppo

Reinforcement Learning • Updated Oct 2, 2025

jhanschoo/ppo-LunarLander-v3

Reinforcement Learning • Updated Oct 29, 2025 • 2

ketencrypt10n/ppo-lunar-lander

Reinforcement Learning • Updated Dec 31, 2025 • 1

hamzasheedi/humanoid-robotics

Reinforcement Learning • Updated Jan 4 • 20

hamzasheedi/humanoid

Reinforcement Learning • Updated Jan 4 • 13

hamzasheedi/humanoid1

Reinforcement Learning • Updated Jan 4 • 22

hamzasheedi/humanoid2

Reinforcement Learning • Updated Jan 5 • 7

hamzasheedi/humanoid3

Reinforcement Learning • Updated Jan 5 • 2