NVIDIA

company

Verified

https://www.nvidia.com/

AI & ML interests

None defined yet.

Recent Activity

vpraveen-nv new activity about 6 hours ago

nvidia/PhysicalAI-VANTAGE-Bench-Subset:Rename LICENSE.md -> LICENSE

vpraveen-nv new activity about 6 hours ago

nvidia/PhysicalAI-VANTAGE-Bench:Rename LICENSE.md -> LICENSE

vpraveen-nv new activity about 7 hours ago

nvidia/PhysicalAI-VANTAGE-Bench:Delete LICENSE

View all activity

Papers

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

View all Papers

Articles

Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents

Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

Gemma 4 VLA Demo on Jetson Orin Nano Super

How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

Building a Fast Multilingual OCR Model with Synthetic Data

NVIDIA Isaac GR00T N1.7: Open Reasoning VLA Model for Humanoid Robots

Build a Domain-Specific Embedding Model in Under a Day

Nemotron 3 Content Safety 4B: Multimodal, Multilingual Content Moderation

Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI

The First Healthcare Robotics Dataset and Foundational Physical AI Models for Healthcare Robotics

Beyond Semantic Similarity: Introducing NVIDIA NeMo Retriever’s Generalizable Agentic Retrieval Pipeline

Build an Agent That Thinks Like a Data Scientist: How We Hit #1 on DABStep with Reusable Tool Generation

How NVIDIA AI-Q Reached \#1 on DeepResearch Bench I and II

Code Concepts: A Large-Scale Synthetic Dataset Generated from Programming Concept Seeds

How NVIDIA Builds Open Data for AI

Deploying Open Source Vision Language Models (VLM) on Jetson

「データ不足」の壁を越える：合成ペルソナが日本のAI開発を加速

From Scarcity to Scale: How Synthetic Personas Can Bootstrap Japanese AI Development

NVIDIA Nemotron 2 Nano 9B Japanese: 日本のソブリンAIを支える最先端小規模言語モデル

NVIDIA Nemotron 2 Nano 9B Japanese: State-of-the-Art Small Language Model Customized for Japanese Sovereign AI

Nemotron ColEmbed V2: Raising the Bar for Multimodal Retrieval with ViDoRe V3’s Top Model

Introducing NVIDIA Cosmos Policy for Advanced Robot Control

Nemotron-Personas-Brazil: Co-Designed Data for Sovereign AI

Nemotron-Personas-Singapore: Co-Designed Data for Sovereign AI

NVIDIA Earth-2 Open Models Span the Whole Weather Stack

Small Yet Mighty: Improve Accuracy In Multimodal Search and Visual Document Retrieval with Llama Nemotron RAG Models

Generalist Robot Policy Evaluation in Simulation with NVIDIA Isaac Lab-Arena and LeRobot

NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI

Scaling Real-Time Voice Agents with Cache-Aware Streaming ASR

The Open Evaluation Standard: Benchmarking NVIDIA Nemotron 3 Nano with NeMo Evaluator

Nemotron 3 Nano \- A new Standard for Efficient, Open, and Intelligent Agentic Models

Custom Policy Enforcement with Reasoning: Faster, Safer AI Applications

How to Build a Healthcare Robot from Simulation to Deployment with NVIDIA Isaac for Healthcare

🛡️ Nemotron PII: Synthesized Data for Privacy-Preserving AI

Nemotron-Personas-USA: Synthesized Data for Sovereign AI

NVIDIA Isaac GR00T in LeRobot

Can Your LLM Think Like a Professional? Introducing ProfBench

NVIDIA Releases 8 Million Sample Open Dataset and Tooling for OCR, Image Reasoning, Image and Video QA Tasks

Cosmos Predict 2.5 & Transfer 2.5: Evolving the World Foundation Models for Physical AI

Nemotron’s Open Secret: Accelerating AI Development with Open Models, Data, and Recipes

Llama‑Embed‑Nemotron‑8B Text Embedding Model Ranks First on Multilingual MTEB Leaderboard

Scaling Test-Time Compute to Achieve Gold Medal at IOI 2025 with Open-Weight Models

Nemotron-Personas-India: Synthesized Data for Sovereign AI

Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Nemotron-Personas-Japan: Synthesized Data for Sovereign AI

NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset

Supercharge Edge AI With High‑Accuracy Reasoning Using NVIDIA Nemotron Nano 2 9B

📢 NVIDIA Releases Nemotron-CC-Math Pre-Training Dataset: A High-Quality, Web-Scale Math Corpus for Pretraining Large Language Models

NVIDIA Releases Improved Pretraining Dataset: Preserves High Value Math & Code, and Augments with Multi-Lingual

NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks

Measuring Open-Source Llama Nemotron Models on DeepResearch Bench

Accelerate a World of LLMs on Hugging Face with NVIDIA NIM

OpenReasoning-Nemotron: A Family of State-of-the-Art Distilled Reasoning Models

Llama-NeMoRetriever-ColEmbed: Developer-Focused Guide to NVIDIA's State-of-the-Art Text-Image Retrieval

Welcome the NVIDIA Llama Nemotron Nano VLM to Hugging Face Hub

Introducing Cosmos Predict-2: A Foundation For Your Own World Model

Post-Training Isaac GR00T N1.5 for LeRobot SO-101 Arm

Supercharge Edge AI with High Accuracy Reasoning Using Llama Nemotron Nano 4B

Nemotron-Personas: Improve AI Training With the First Synthetic Personas Dataset Aligned to Real-World Distributions

Explore, Build, and Innovate AI Reasoning with NVIDIA’s Open Models and Recipes

Mastering Long Contexts in LLMs with KVPress

View all articles

nvidia 's Papers 96

Submitted by

taesiri

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

nvidia

Submitted by

Amala Sanjay Deshmukh

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

nvidia

2

Submitted by

Moshe kimhi

Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

nvidia

Submitted by

Rishit Dagli

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

nvidia

Submitted by

taesiri

Lyra 2.0: Explorable Generative 3D Worlds

nvidia

Submitted by

taesiri

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

nvidia

7

Submitted by

taesiri

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

nvidia

Submitted by

Ghosh

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

nvidia

2

Submitted by

taesiri

MoRight: Motion Control Done Right

nvidia

Submitted by

taesiri

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

nvidia

Submitted by

Wei Huang

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

nvidia

Submitted by

taesiri

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

nvidia

Submitted by

taesiri

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

nvidia

Submitted by

taesiri

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

nvidia

Submitted by

Ghosh

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

nvidia

2

Submitted by

LZX

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

nvidia

Submitted by

Shengqu Cai

Mode Seeking meets Mean Seeking for Fast Long Video Generation

nvidia

4

Submitted by

Sven Elflein

VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

nvidia

2

Submitted by

Junchen Liu

Test-Time Training with KV Binding Is Secretly Linear Attention

nvidia

Submitted by

renjie

On Data Engineering for Scaling LLM Terminal Capabilities

nvidia

Submitted by

Hila Manor

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

nvidia

KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning

nvidia

Submitted by

Tianyi Xiong

PhyCritic: Multimodal Critic Models for Physical AI

nvidia

2

Submitted by

taesiri

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

nvidia

Submitted by

Talor Abramovich

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

nvidia

Submitted by

Ali

iGRPO: Self-Feedback-Driven LLM Reasoning

nvidia

Submitted by

taesiri

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

nvidia

Submitted by

Hyunwoo Kim

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

nvidia

Submitted by

Ximing Lu

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

nvidia

6

Submitted by

Alex Chiu

FP8-RL: A Practical and Stable Low-Precision Stack for LLM Reinforcement Learning

nvidia

Submitted by

taesiri

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

nvidia

Submitted by

Haocheng Xi

Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

nvidia

Submitted by

taesiri

Transition Matching Distillation for Fast Video Generation

nvidia

Submitted by

Chi-Pin Huang

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

nvidia

2

Submitted by

taesiri

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

nvidia

Submitted by

taesiri

Motion Attribution for Video Generation

nvidia

Submitted by

LIU Shih-yang

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

nvidia

Submitted by

taesiri

Plenoptic Video Generation

nvidia

Submitted by

taesiri

NitroGen: An Open Foundation Model for Generalist Gaming Agents

nvidia

Submitted by

taesiri

SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

nvidia

Submitted by

JaesungChoe

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

nvidia

3

Submitted by

taesiri

NVIDIA Nemotron 3: Efficient and Open Intelligence

nvidia

Submitted by

taesiri

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

nvidia

Submitted by

Byung-Kwan Lee

Masking Teacher and Reinforcing Student for Distilling Vision-Language Models

nvidia

3

Submitted by

Min-Hung Chen

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

nvidia

Submitted by

Wei Du

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

nvidia

Submitted by

Ryo Hachiuma

Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

nvidia

Submitted by

taesiri

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

nvidia

Submitted by

Wei Ping

Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

nvidia

Submitted by

Bowen Wen

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

nvidia

Submitted by

Siyi Chen

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

nvidia

Submitted by

Min-Hung Chen

BlurDM: A Blur Diffusion Model for Image Deblurring

nvidia

Submitted by

Shizhe Diao

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

nvidia

Submitted by

Yongsheng Yu

PixelDiT: Pixel Diffusion Transformers for Image Generation

nvidia

2

Submitted by

taesiri

NVIDIA Nemotron Parse 1.1

nvidia

Submitted by

Yonggan Fu

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

nvidia

Submitted by

taesiri

Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

nvidia

Submitted by

Ghosh

Music Flamingo: Scaling Music Understanding in Audio Language Models

nvidia

2

Submitted by

taesiri

TiDAR: Think in Diffusion, Talk in Autoregression

nvidia

Submitted by

Min-Hung Chen

VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

nvidia

3

Submitted by

Yauhen Babakhin

Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

nvidia

2

Submitted by

Huck Yang

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

nvidia

2

Submitted by

taesiri

NVIDIA Nemotron Nano V2 VL

nvidia

Submitted by

Rishit Dagli

VoMP: Predicting Volumetric Mechanical Property Fields

nvidia

1

Submitted by

Byung-Kwan Lee

Unified Reinforcement and Imitation Learning for Vision-Language Models

nvidia

7

Submitted by

Shizhe Diao

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

nvidia

Submitted by

taesiri

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

nvidia

Submitted by

Min-Hung Chen

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

nvidia

Submitted by

Ankit Goyal

VLA-0: Building State-of-the-Art VLAs with Zero Modification

nvidia

Submitted by

Wei Huang

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

nvidia

Submitted by

Min-Hung Chen

TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

nvidia

2

Submitted by

Jay Wu

ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

nvidia

Submitted by

Shizhe Diao

BroRL: Scaling Reinforcement Learning via Broadened Exploration

nvidia

Submitted by

Wu Chengyue

Fast-dLLM v2: Efficient Block-Diffusion LLM

nvidia

Submitted by

Han Cai

DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

nvidia

Submitted by

Han Cai

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

nvidia

Submitted by

taesiri

Pretraining Large Language Models with NVFP4

nvidia

Submitted by

Yuyang

SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

nvidia

Submitted by

Shrimai Prabhumoye

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

nvidia

4

Submitted by

Ali

RLP: Reinforcement as a Pretraining Objective

nvidia

Submitted by

Syang

LongLive: Real-time Interactive Long Video Generation

nvidia

Submitted by

Zhilin Wang

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

nvidia

2

Submitted by

Min-Hung Chen

V2V-GoT: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multimodal Large Language Models and Graph-of-Thoughts

nvidia

Submitted by

Min-Hung Chen

Autoregressive Universal Video Segmentation Model

nvidia

3

Submitted by

Chi-Pin Huang

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

nvidia

1

Submitted by

Byung-Kwan Lee

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

nvidia

2

Submitted by

Piotr Nawrot

Inference-Time Hyper-Scaling with KV Cache Compression

nvidia

3

Submitted by

Min-Hung Chen

V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

nvidia

Submitted by

Min-Hung Chen

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

nvidia

2

Submitted by

Byung-Kwan Lee

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

nvidia

2

Submitted by

Pavlo Molchanov

Hymba: A Hybrid-head Architecture for Small Language Models

nvidia

Submitted by

Min-Hung Chen

EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

nvidia

SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP

nvidia

Submitted by

Ankit Goyal

RVT-2: Learning Precise Manipulation from Few Demonstrations

nvidia

DoRA: Weight-Decomposed Low-Rank Adaptation

nvidia

SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation

nvidia