RLAIF Experimentation - a TitleOS Collection

TitleOS 's Collections

Metis 4B - Purple Team Agent

Eve 4B - Small Secure Coder

RLAIF Experimentation

Qwen3 Coder Heretic - Decensored

Spark 270M - Micro Local Utility LLM

Lightning 1.7B - Local Utility LLM

HomePhi4 - Home Assistant Reasoning LLM

HomeGem - Home Assistant Conversational LLM

Galactic Reasoning - Galactica with Chain-Of-Thought

RLAIF Experimentation

updated Feb 12

Research into RLAIF (Reinforcement Learning from AI feedback) with the goal of Constitutional AI and Sycophancy Resistance.