Open to Collab

Muhammad Umair

umair894

AI & ML interests

Multimodal Reidentification | Feature Upscaling | Cross-modal alignment | robust generalization | PhD UESTC

Recent Activity

liked a Space 3 days ago

huggingface-projects/rf-detr-realtime-webcam

upvoted a paper 3 days ago

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

upvoted a paper 6 days ago

Multi-Agent Computer Use

View all activity

Organizations

liked a Space 3 days ago

RF-DETR Realtime Webcam Demo

🎯

Segment objects in live webcam and uploaded media

upvoted a paper 3 days ago

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Paper • 2606.05112 • Published 5 days ago • 3

upvoted 4 papers 6 days ago

Multi-Agent Computer Use

Paper • 2606.01533 • Published 7 days ago • 7

Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

Paper • 2606.01247 • Published 8 days ago • 29

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

Paper • 2605.28132 • Published 12 days ago • 25

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Paper • 2606.02437 • Published 7 days ago • 220

liked 2 Spaces 6 days ago

NV-Generate Synthetic Medical Imaging

🧠

Synthetic 3D CT and MR generation with NVIDIA NV-Generate.

LocateAnything

💬

207

Detect and label objects in images and videos

liked a model 7 days ago

nvidia/LocateAnything-3B

Image-Text-to-Text • 4B • Updated 12 days ago • 116k • 1.52k

liked 2 Spaces 7 days ago

LTX 2.3 Studio

🎬

220

Generate videos from text, images, audio, or video clips

Omni-Video-Factory-API-iframe

🐠

101

Access video creation tools via an embedded interface

liked a model 8 days ago

lintw/HealthGPT-Pro-4B

Image-Text-to-Image • 4B • Updated May 5 • 57 • 3

upvoted 2 papers 8 days ago

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

Paper • 2605.22189 • Published 18 days ago • 8

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

Paper • 2605.29341 • Published 11 days ago • 17

upvoted 3 papers 9 days ago

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

Paper • 2605.30161 • Published 11 days ago • 60

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Paper • 2605.30280 • Published 11 days ago • 139

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

Paper • 2605.29250 • Published 11 days ago • 77

upvoted 2 papers 13 days ago

Your Embedding Model is SMARTer Than You Think

Paper • 2605.24938 • Published 15 days ago • 25

Helix4D: Complex 4D Mesh Generation

Paper • 2605.26109 • Published 14 days ago • 14

liked a Space 13 days ago

Carbon

🧬

166

Explore DNA model predictions and protein folding interactively