new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

May 15

Submitted by

yaful

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

·
28 authors

Submitted by

zhuhz22

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

thu-ml

Tsinghua Machine Learning Group

Submitted by

taesiri

Self-Distilled Agentic Reinforcement Learning

·
11 authors

Submitted by

ZhaoweiWang

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

nvidia

Submitted by

HaoyiZhu

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

nvidia

Submitted by

DarkBluee

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

·
17 authors

Submitted by

seawolf2357

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

FINAL-Bench

Submitted by

JamesMile

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

XianJiaotongUniversity

Xi'an Jiaotong University

Submitted by

Mar2Ding

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

internlm

Intern Large Models

Submitted by

ZhaoweiWang

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

HKUST NLP Group

Submitted by

tonghe90

Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

·
2 authors

Submitted by

taofeng

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

YuminChoi

PREPING: Building Agent Memory without Tasks

kaist-ai

Submitted by

IvanTang

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

PekingUniversity

Peking University

Submitted by

danielgilo

Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

Submitted by

JiaaqiLiu

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

·
7 authors

Submitted by

bloc97

Long Context Pre-Training with Lighthouse Attention

NousResearch

Submitted by

taesiri

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

·
4 authors

Submitted by

qmang

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

·
17 authors

Submitted by

alsu-sagirova

Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

·
8 authors

Submitted by

quanhaol

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

·
10 authors

Submitted by

qianhuiwu

Orchard: An Open-Source Agentic Modeling Framework

MicrosoftResearch

Microsoft Research

Submitted by

LiamLian0727

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

DeepCybo

Submitted by

xichenhku

PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

zju

Zhejiang University

Submitted by

LIQIIIII

ViMU: Benchmarking Video Metaphorical Understanding

·
2 authors

Submitted by

oliveryanzuolu

RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

mvp-lab

Submitted by

JasonTTY

Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models

zju

Zhejiang University

Submitted by

JingyeChen22

Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

Submitted by

AmirMohseni

CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

·
4 authors

Submitted by

KomeijiForce

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

UCSanDiego

University of California at San Diego

Submitted by

jzhuang

WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild

TheUniversityofQueensland

The University of Queensland

Submitted by

taesiri

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

·
6 authors

Submitted by

hanlincs

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

young13579

PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

deepseek-ai

Submitted by

tmeral

Aligning Latent Geometry for Spherical Flow Matching in Image Generation

mayzovt

Submitted by

qian43

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

WuhanUniversity

Wuhan Univeristy

Submitted by

shash42

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Intelligent-Systems

Max Planck Institute for Intelligent Systems

Submitted by

hanhan3344

Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

ByteDance

2

Submitted by

Ksgk-fy

Dynamic Latent Routing

thoughtworks

Submitted by

che111

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

stepfun-ai

Submitted by

n3il666

Topology-Preserving Neural Operator Learning via Hodge Decomposition

princetonu

Princeton University

Submitted by

eternaldolphin

RewardHarness: Self-Evolving Agentic Post-Training

NAIL-Group

Natural and Artificial Intelligence Lab

Submitted by

Hanbo-Cheng

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

ustc-community

University of Science and Technology of China

Submitted by

SinclairSchneider

LLM-based Detection of Manipulative Political Narratives

NLP Research Group UniBW

Submitted by

SinclairSchneider

Ideology Prediction of German Political Texts

NLP Research Group UniBW

Submitted by

kaiyan289

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

Julius-L

BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

alibaba-inc

Submitted by

mbkim

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

google

Submitted by

taesiri

Nexus : An Agentic Framework for Time Series Forecasting

·
9 authors

Submitted by

taesiri

Quantitative Video World Model Evaluation for Geometric-Consistency

·
5 authors

Submitted by

DhavalPatel

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

ibm

Submitted by

Sweson

PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

notredame

University of Notre Dame

Submitted by

zhehuderek

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

·
9 authors