Open to Work

9 30 252

P.M.SALMAN KHAN

salmankhanpm

https://salmankhanpm.me

AI & ML interests

NLP - LLM - AI SAFETY

Recent Activity

published a dataset about 13 hours ago

salmankhanpm/telugu-safety-prompts

liked a model about 20 hours ago

Qwen/Qwen3.5-35B-A3B-FP8

upvoted a paper 1 day ago

δ-mem: Efficient Online Memory for Large Language Models

View all activity

Organizations

upvoted a paper 1 day ago

δ-mem: Efficient Online Memory for Large Language Models

Paper • 2605.12357 • Published 3 days ago • 99

upvoted a paper 2 days ago

Konkani LLM: Multi-Script Instruction Tuning and Evaluation for a Low-Resource Indian Language

Paper • 2603.23529 • Published Mar 7 • 1

upvoted an article 4 days ago

Article

Pallas for people who know JAX but not kernels yet

ariG23498

•

15 days ago

• 21

upvoted an article 23 days ago

Article

Multilingual Tool Calling in 70+ Languages, On Device

Bronsn

•

24 days ago

• 11

upvoted a collection 2 months ago

Qwen3.5-abliterated

Collection

22 items • Updated Apr 6 • 80

upvoted an article 3 months ago

Article

Mixture of Experts (MoEs) in Transformers

ariG23498, pcuenq, merve, IlyasMoutawwakil, ArthurZ, sergiopaniego, Molbap

•

Feb 26

• 159

upvoted a collection 3 months ago

📝 Research & Long-Form Blog Posts

Collection

In-depth technical articles and research pieces published by Hugging Face • 14 items • Updated 10 days ago • 21

upvoted a paper 3 months ago

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Paper • 2601.19895 • Published Jan 27 • 27

upvoted 2 articles 4 months ago

Article

Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

•

Jan 27

• 74

Article

We Got Claude to Build CUDA Kernels and teach open models!

burtenshaw, evalstate, merve, pcuenq

•

Jan 28

• 156

upvoted 4 collections 4 months ago

upvoted a paper 6 months ago

TiDAR: Think in Diffusion, Talk in Autoregression

Paper • 2511.08923 • Published Nov 12, 2025 • 128

upvoted an article 6 months ago

Article

⛳ Optimizer: What Does It Do and Why We Need It

onekq

•

Nov 12, 2025

• 7

upvoted an article 7 months ago

Article

Visualize and understand GPU memory in PyTorch

qgallouedec

•

Dec 24, 2024

• 270

upvoted a paper 7 months ago

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Paper • 2509.25454 • Published Sep 29, 2025 • 148

upvoted a changelog 8 months ago

Hugging Face Changelog

Repositories total file size is now displayed

Sep 18, 2025

• 175

upvoted an article 8 months ago

Article

SmolLM3: smol, multilingual, long-context reasoner

eliebak, cmpatino, anton-l, edbeeching, m-ric, nouamanetazi, akseljoonas, guipenedo, hynky, clefourrier, SaylorTwift, kashif, qgallouedec, hlarcher, glutamatt, Xenova, reach-vb, ngxson, craffel, lewtun, loubnabnl, lvwerra, thomwolf

•

Jul 8, 2025

• 775

P.M.SALMAN KHAN

AI & ML interests

Recent Activity

Organizations

salmankhanpm's activity

Pallas for people who know JAX but not kernels yet

Multilingual Tool Calling in 70+ Languages, On Device

Mixture of Experts (MoEs) in Transformers

Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective

We Got Claude to Build CUDA Kernels and teach open models!

⛳ Optimizer: What Does It Do and Why We Need It

Visualize and understand GPU memory in PyTorch

Repositories total file size is now displayed

SmolLM3: smol, multilingual, long-context reasoner