清华大学博士加州大学洛杉矶分校伯克利看到科技 (创业) 商汤科技 IDEA研究院视觉研究员高级工程师

Python / C++ / Go PyTorch 3D视觉李代数光束法平差优化理论氛围编程 Linux / Git 模仿学习强化学习羽毛球发展心理学 VLA Robot 6D Pose 3D Detection 3DGS Object Reconstruction Hand Reconstruction Keypoint Detection Human Motion Defect Detection Person ReID NDN/Networking VR Streaming

Shock (Xiaoke) Jiang 蒋小可 (Shock Jiang)

Senior CV Researcher @ IDEA IDEA研究院资深视觉研究员

探索世界，也探索我们的内心

一只羊，保持对他人的尊重和善意，内心独立有态度。喜欢清晰的事实，生动的细节，有条理的逻辑，妥善的表达和善良的心灵；知自己没有掌握真理，也厌烦被脱离场景的真理训诫。

我倾向于秩序，知识要有层次，数据需要结构化，认知的过程就是不断把数据和知识进行秩序化的过程；唯有人生而平等，在万物之灵的层面没有排序。

— views since 2026.6.1

2026-06 一篇论文被 ECCV 2026 录用：GTA-VLA（Guide, Think, Act）！

2026-04-27 广东省人工智能应用对接大会主题演讲：SpatialPoint（报道）。

2026-04 🔥 招收实习生！研究方向：世界模型（视频中手到夹爪的迁移、强化学习中的价值函数、3D 视觉语言等）。联系：shock.jiang@outlook.com

2026-03 SpatialPoint 在 arXiv 发布，被量子位报道！

2025-11 DINO-XGrasp 在 IDEA Day 上亮相（演示视频）。

2025-07 一篇论文被ICCV 2025录用：UniG！

2025-06 一篇论文被IJCAI 2025录用：SeqPose！

2025-02 三篇论文被CVPR 2025录用：LeanGaussian、HandOS、HumanMM！

2024-09 Geo6D 被 IEEE Transactions on Multimedia (TMM) 录用。

2023-01 Uni6Dv2 被 AISTATS 2023 录用。

2022-06 在商汤 CVPR 2022 论文分享会上分享 Uni6D。

2022-03 Uni6D 被 CVPR 2022 录用为 Oral 报告！

2026

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang

European Conference on Computer Vision (ECCV) 2026CCF-A

VLARobot arXiv Project BibTeX

@article{guide,think,act2026,
  title={Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models},
  author={Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang},
  journal={European Conference on Computer Vision (ECCV) 2026},
  year={2026}
}

SpatialPoint: Spatial-aware Point Prediction for Embodied Localization

Qiming Zhu, Zhirui Fang, Tianming Zhang, Chuanxiu Liu, Xiaoke Jiang*, Lei Zhang

arXiv 2026

VLARobot arXiv BibTeX

@article{spatialpoint2026,
  title={SpatialPoint: Spatial-aware Point Prediction for Embodied Localization},
  author={Qiming Zhu, Zhirui Fang, Tianming Zhang, Chuanxiu Liu, Xiaoke Jiang, Lei Zhang},
  journal={arXiv 2026},
  year={2026}
}

2025

3DRot: Rediscovering the Missing Primitive for RGB-Based 3D Augmentation

Shitian Yang, Deyu Li, Xiaoke Jiang*, Lei Zhang

arXiv 2025

6D Pose3D Detection arXiv BibTeX

@article{3drot2025,
  title={3DRot: Rediscovering the Missing Primitive for RGB-Based 3D Augmentation},
  author={Shitian Yang, Deyu Li, Xiaoke Jiang, Lei Zhang},
  journal={arXiv 2025},
  year={2025}
}

Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians

Jiamin Wu, Hongyang Li, Xiaoke Jiang*, Yuan Yao, Lei Zhang

arXiv 2025

3DGSObject Reconstruction arXiv BibTeX

@article{coca-splat2025,
  title={Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians},
  author={Jiamin Wu, Hongyang Li, Xiaoke Jiang, Yuan Yao, Lei Zhang},
  journal={arXiv 2025},
  year={2025}
}

UniG: Modelling Unitary 3D Gaussians for View-Consistent 3D Reconstruction

Jiamin Wu, Kenkun Liu, Yukai Shi, Xiaoke Jiang*, Yuan Yao, Lei Zhang

International Conference on Computer Vision (ICCV) 2025CCF-A

3DGSObject Reconstruction arXiv Code Project BibTeX

@article{unig2025,
  title={UniG: Modelling Unitary 3D Gaussians for View-Consistent 3D Reconstruction},
  author={Jiamin Wu, Kenkun Liu, Yukai Shi, Xiaoke Jiang, Yuan Yao, Lei Zhang},
  journal={International Conference on Computer Vision (ICCV) 2025},
  year={2025}
}

LeanGaussian: Breaking Pixel or Point Cloud Correspondence in Modeling 3D Gaussians

Jiamin Wu, Kenkun Liu, Han Gao, Xiaoke Jiang*, Yuan Yao, Lei Zhang

Conference on Computer Vision and Pattern Recognition (CVPR) 2025CCF-A

3DGSObject Reconstruction PDF Code Project BibTeX

@article{leangaussian2025,
  title={LeanGaussian: Breaking Pixel or Point Cloud Correspondence in Modeling 3D Gaussians},
  author={Jiamin Wu, Kenkun Liu, Han Gao, Xiaoke Jiang, Yuan Yao, Lei Zhang},
  journal={Conference on Computer Vision and Pattern Recognition (CVPR) 2025},
  year={2025}
}

HandOS: 3D Hand Reconstruction in One Stage

Xingyu Chen, Zhuheng Song, Xiaoke Jiang, Yaoqing Hu, Junzhi Yu, Lei Zhang

Conference on Computer Vision and Pattern Recognition (CVPR) 2025CCF-A

Hand ReconstructionKeypoint Detection PDF Project BibTeX

@article{handos2025,
  title={HandOS: 3D Hand Reconstruction in One Stage},
  author={Xingyu Chen, Zhuheng Song, Xiaoke Jiang, Yaoqing Hu, Junzhi Yu, Lei Zhang},
  journal={Conference on Computer Vision and Pattern Recognition (CVPR) 2025},
  year={2025}
}

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang

Conference on Computer Vision and Pattern Recognition (CVPR) 2025CCF-A

Human MotionObject Reconstruction arXiv Code Project BibTeX

@article{humanmm2025,
  title={HumanMM: Global Human Motion Recovery from Multi-shot Videos},
  author={Yuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang},
  journal={Conference on Computer Vision and Pattern Recognition (CVPR) 2025},
  year={2025}
}

SeqPose: An End-to-End Framework to Unify Single-frame and Video-based RGB Category-Level Pose Estimation

Yuzhu Ji, Mingshan Sun, Jianyang Shi, Xiaoke Jiang, Yiqun Zhang, Haijun Zhang

International Joint Conference on Artificial Intelligence (IJCAI) 2025CCF-A

6D Pose PDF Project BibTeX

@article{seqpose2025,
  title={SeqPose: An End-to-End Framework to Unify Single-frame and Video-based RGB Category-Level Pose Estimation},
  author={Yuzhu Ji, Mingshan Sun, Jianyang Shi, Xiaoke Jiang, Yiqun Zhang, Haijun Zhang},
  journal={International Joint Conference on Artificial Intelligence (IJCAI) 2025},
  year={2025}
}

Geo6D: Geometric-Constraints-Guided Direct Object 6D Pose Estimation Network

Jianqiu Chen, Mingshan Sun, Ye Zheng, Tianpeng Bao, Zhenyu He, Donghai Li, Guoqiang Jin, Zhao Rui, Liwei Wu, Xiaoke Jiang

IEEE Transactions on Multimedia (TMM) 2025

6D Pose PDF Code BibTeX

@article{geo6d2025,
  title={Geo6D: Geometric-Constraints-Guided Direct Object 6D Pose Estimation Network},
  author={Jianqiu Chen, Mingshan Sun, Ye Zheng, Tianpeng Bao, Zhenyu He, Donghai Li, Guoqiang Jin, Zhao Rui, Liwei Wu, Xiaoke Jiang},
  journal={IEEE Transactions on Multimedia (TMM) 2025},
  year={2025}
}

Uni6Dv2: Noise Elimination for 6D Pose Estimation

Mingshan Sun, Ye Zheng, Tianpeng Bao, Jianqiu Chen, Guoqiang Jin, Liwei Wu, Rui Zhao, Xiaoke Jiang

International Conference on Artificial Intelligence and Statistics (AISTATS) 2025

6D PoseRobot arXiv BibTeX

@article{uni6dv22025,
  title={Uni6Dv2: Noise Elimination for 6D Pose Estimation},
  author={Mingshan Sun, Ye Zheng, Tianpeng Bao, Jianqiu Chen, Guoqiang Jin, Liwei Wu, Rui Zhao, Xiaoke Jiang},
  journal={International Conference on Artificial Intelligence and Statistics (AISTATS) 2025},
  year={2025}
}

2023

Defect classification for specular surfaces based on deflectometry and multi-modal fusion network

Jingtian Guan, Jingjing Fei, Wei Li, Xiaoke Jiang, Liwei Wu, Yakun Liu, Juntong Xi

Optics and Lasers in Engineering 163 (2023)

Defect Detection PDF Project BibTeX

@article{defectclassificationforspecularsurfacesbasedondeflectometryandmulti-modalfusionnetwork2023,
  title={Defect classification for specular surfaces based on deflectometry and multi-modal fusion network},
  author={Jingtian Guan, Jingjing Fei, Wei Li, Xiaoke Jiang, Liwei Wu, Yakun Liu, Juntong Xi},
  journal={Optics and Lasers in Engineering 163 (2023)},
  year={2023}
}

2022

Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose Estimation

Xiaoke Jiang, Donghai Li, Hao Chen, Ye Zheng, Rui Zhao, Liwei Wu

Conference on Computer Vision and Pattern Recognition (CVPR) 2022 (Oral)ORALCCF-A

6D PoseRobot arXiv BibTeX

@article{uni6d2022,
  title={Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose Estimation},
  author={Xiaoke Jiang, Donghai Li, Hao Chen, Ye Zheng, Rui Zhao, Liwei Wu},
  journal={Conference on Computer Vision and Pattern Recognition (CVPR) 2022 (Oral)},
  year={2022}
}

2021

SSN3D: Self-Separated Network to Align Parts for 3D Convolution in Video Person Re-Identification

Xiaoke Jiang, Yu Qiao, Junjie Yan, Qichen Li, Wanrong Zheng, Dapeng Chen

AAAI Conference on Artificial Intelligence (AAAI) 2021CCF-A

Person ReID3D Detection PDF BibTeX

@article{ssn3d2021,
  title={SSN3D: Self-Separated Network to Align Parts for 3D Convolution in Video Person Re-Identification},
  author={Xiaoke Jiang, Yu Qiao, Junjie Yan, Qichen Li, Wanrong Zheng, Dapeng Chen},
  journal={AAAI Conference on Artificial Intelligence (AAAI) 2021},
  year={2021}
}

2019

ATSRA: An Accelerated Transmission Strategy Based on Request Aggregation in NDN

Shanshan Shi, Jun Li, Haibo Wu, Yongmao Ren, Xiaoke Jiang

IEEE International Conference on Computer Communications (INFOCOM) 2019 (poster)CCF-A

NDN/Networking BibTeX

@article{atsra2019,
  title={ATSRA: An Accelerated Transmission Strategy Based on Request Aggregation in NDN},
  author={Shanshan Shi, Jun Li, Haibo Wu, Yongmao Ren, Xiaoke Jiang},
  journal={IEEE International Conference on Computer Communications (INFOCOM) 2019 (poster)},
  year={2019}
}

2018

Smart Streaming of Panoramic Video

Hongwei Ma, Xiaoke Jiang, Rui Ma, Zhiyou Ma, Yizhen Cai, Dah Ming Chiu

ACM SIGCOMM 2018 VR WorkshopCCF-A

VR Streaming BibTeX

@article{smartstreamingofpanoramicvideo2018,
  title={Smart Streaming of Panoramic Video},
  author={Hongwei Ma, Xiaoke Jiang, Rui Ma, Zhiyou Ma, Yizhen Cai, Dah Ming Chiu},
  journal={ACM SIGCOMM 2018 VR Workshop},
  year={2018}
}

Cache and delivery of VR video over named data networking

Yi Zhang, Xiaoke Jiang, Yi Wang, Kai Lei

IEEE INFOCOM Workshops 2018CCF-A

VR StreamingNDN/Networking BibTeX

@article{cacheanddeliveryofvrvideoovernameddatanetworking2018,
  title={Cache and delivery of VR video over named data networking},
  author={Yi Zhang, Xiaoke Jiang, Yi Wang, Kai Lei},
  journal={IEEE INFOCOM Workshops 2018},
  year={2018}
}

2017

NDNS: A DNS-Like Name Service for NDN

Alexander Afanasyev, Xiaoke Jiang, Yingdi Yu, Jiewen Tan, Yumin Xia, Allison Mankin, Lixia Zhang

International Conference on Computer Communications and Networks (ICCCN) 2017

NDN/Networking Code BibTeX

@article{ndns2017,
  title={NDNS: A DNS-Like Name Service for NDN},
  author={Alexander Afanasyev, Xiaoke Jiang, Yingdi Yu, Jiewen Tan, Yumin Xia, Allison Mankin, Lixia Zhang},
  journal={International Conference on Computer Communications and Networks (ICCCN) 2017},
  year={2017}
}

2016

IS: Interest Set to Enhance Flow Transmission in Named-Data Networking

Xiaoke Jiang, Jun Bi

China Communications (IEEE), Vol.13, 2016

NDN/Networking BibTeX

@article{is2016,
  title={IS: Interest Set to Enhance Flow Transmission in Named-Data Networking},
  author={Xiaoke Jiang, Jun Bi},
  journal={China Communications (IEEE), Vol.13, 2016},
  year={2016}
}

2015

A Survey on Information-Centric Networking: Rationales, Designs and Debates

Xiaoke Jiang, Jun Bi, Guoshun Nan, Zhaogeng Li

China Communications (IEEE), Vol.12, No.7, 2015

NDN/Networking BibTeX

@article{asurveyoninformation-centricnetworking2015,
  title={A Survey on Information-Centric Networking: Rationales, Designs and Debates},
  author={Xiaoke Jiang, Jun Bi, Guoshun Nan, Zhaogeng Li},
  journal={China Communications (IEEE), Vol.12, No.7, 2015},
  year={2015}
}

2014

nCDN: CDN Enhanced with NDN

Xiaoke Jiang, Jun Bi

IEEE INFOCOM 2014, NOM WorkshopCCF-A

NDN/Networking BibTeX

@article{ncdn2014,
  title={nCDN: CDN Enhanced with NDN},
  author={Xiaoke Jiang, Jun Bi},
  journal={IEEE INFOCOM 2014, NOM Workshop},
  year={2014}
}

What Benefits Does NDN Have in Supporting Mobility

Xiaoke Jiang, Jun Bi, You Wang

IEEE Symposium on Computers and Communications (ISCC) 2014

NDN/Networking BibTeX

@article{whatbenefitsdoesndnhaveinsupportingmobility2014,
  title={What Benefits Does NDN Have in Supporting Mobility},
  author={Xiaoke Jiang, Jun Bi, You Wang},
  journal={IEEE Symposium on Computers and Communications (ISCC) 2014},
  year={2014}
}

MCBS: Matrix Computation Based Simulator of NDN

Xiaoke Jiang, Jun Bi, You Wang

Journal of Computers, Vol.9, No.9, 2014

NDN/Networking BibTeX

@article{mcbs2014,
  title={MCBS: Matrix Computation Based Simulator of NDN},
  author={Xiaoke Jiang, Jun Bi, You Wang},
  journal={Journal of Computers, Vol.9, No.9, 2014},
  year={2014}
}

2013

Interest Set Mechanism to Improve the Transport of Named Data Networking

Xiaoke Jiang, Jun Bi

ACM SIGCOMM Conference on Data Communication 2013 (poster)CCF-A

NDN/Networking BibTeX

@article{interestsetmechanismtoimprovethetransportofnameddatanetworking2013,
  title={Interest Set Mechanism to Improve the Transport of Named Data Networking},
  author={Xiaoke Jiang, Jun Bi},
  journal={ACM SIGCOMM Conference on Data Communication 2013 (poster)},
  year={2013}
}

An Adaptive Probabilistic Marking Scheme for Fast and Secure Traceback

Hongcheng Tian, Jun Bi, Xiaoke Jiang

Networking Science (Springer), Vol.2, No.1-2, 2013

NDN/Networking BibTeX

@article{anadaptiveprobabilisticmarkingschemeforfastandsecuretraceback2013,
  title={An Adaptive Probabilistic Marking Scheme for Fast and Secure Traceback},
  author={Hongcheng Tian, Jun Bi, Xiaoke Jiang},
  journal={Networking Science (Springer), Vol.2, No.1-2, 2013},
  year={2013}
}

MSDN: A Mechanism for Scalable Intradomain Control Plane in SDN

Pingping Lin, Jun Bi, Hongyu Hu, Xiaoke Jiang

Journal of Chinese Computer Systems, Vol.34, No.9, 2013

NDN/Networking BibTeX

@article{msdn2013,
  title={MSDN: A Mechanism for Scalable Intradomain Control Plane in SDN},
  author={Pingping Lin, Jun Bi, Hongyu Hu, Xiaoke Jiang},
  journal={Journal of Chinese Computer Systems, Vol.34, No.9, 2013},
  year={2013}
}

2012

A Content Provider Mobility Solution of Named Data Networking

Xiaoke Jiang, Jun Bi, You Wang, Pingping Lin, Zhaogeng Li

IEEE International Conference on Network Protocols (ICNP) 2012

NDN/Networking BibTeX

@article{acontentprovidermobilitysolutionofnameddatanetworking2012,
  title={A Content Provider Mobility Solution of Named Data Networking},
  author={Xiaoke Jiang, Jun Bi, You Wang, Pingping Lin, Zhaogeng Li},
  journal={IEEE International Conference on Network Protocols (ICNP) 2012},
  year={2012}
}

An Easy Matrix Computation based Simulator of NDN

Xiaoke Jiang, Jun Bi, You Wang, Pingping Lin, Zhaogeng Li

IEEE International Conference on Networking and Distributed Computing (ICNDC) 2012

NDN/Networking BibTeX

@article{aneasymatrixcomputationbasedsimulatorofndn2012,
  title={An Easy Matrix Computation based Simulator of NDN},
  author={Xiaoke Jiang, Jun Bi, You Wang, Pingping Lin, Zhaogeng Li},
  journal={IEEE International Conference on Networking and Distributed Computing (ICNDC) 2012},
  year={2012}
}

Mobility Support in the Internet Using Identifiers

You Wang, Jun Bi, Xiaoke Jiang

ACM International Conference on Future Internet Technologies (CFI) 2012

NDN/Networking BibTeX

@article{mobilitysupportintheinternetusingidentifiers2012,
  title={Mobility Support in the Internet Using Identifiers},
  author={You Wang, Jun Bi, Xiaoke Jiang},
  journal={ACM International Conference on Future Internet Technologies (CFI) 2012},
  year={2012}
}

The Compression of Pending Interest Table with Bloom Filter in Content Centric Network

Zhaogeng Li, Jun Bi, Sen Wang, Xiaoke Jiang

ACM International Conference on Future Internet Technologies (CFI) 2012

NDN/Networking BibTeX

@article{thecompressionofpendinginteresttablewithbloomfilterincontentcentricnetwork2012,
  title={The Compression of Pending Interest Table with Bloom Filter in Content Centric Network},
  author={Zhaogeng Li, Jun Bi, Sen Wang, Xiaoke Jiang},
  journal={ACM International Conference on Future Internet Technologies (CFI) 2012},
  year={2012}
}

2011

IPv6 Evolution, Stability and Deployment

Xiaoke Jiang, Jun Bi, Yangyang Wang, Zhijie He, Wei Zhang, Hongchen Tian

IEEE International Conference on Network Protocols (ICNP) 2011

NDN/Networking BibTeX

@article{ipv6evolution,stabilityanddeployment2011,
  title={IPv6 Evolution, Stability and Deployment},
  author={Xiaoke Jiang, Jun Bi, Yangyang Wang, Zhijie He, Wei Zhang, Hongchen Tian},
  journal={IEEE International Conference on Network Protocols (ICNP) 2011},
  year={2011}
}

Fast and Secure Probabilistic Marking Technology for IP Traceback

Hongcheng Tian, Jun Bi, Xiaoke Jiang, Dekai Wang, Wei Zhang

Journal of Tsinghua University, Vol.50, No.4, 2011

NDN/Networking BibTeX

@article{fastandsecureprobabilisticmarkingtechnologyforiptraceback2011,
  title={Fast and Secure Probabilistic Marking Technology for IP Traceback},
  author={Hongcheng Tian, Jun Bi, Xiaoke Jiang, Dekai Wang, Wei Zhang},
  journal={Journal of Tsinghua University, Vol.50, No.4, 2011},
  year={2011}
}

EasyTrace: Easily-Deployable Light-Weight IP Traceback on an AS-Level Overlay Network

Hongcheng Tian, Jun Bi, Wei Zhang, Xiaoke Jiang

IEEE International Conference on Network Protocols (ICNP) 2011

NDN/Networking BibTeX

@article{easytrace2011,
  title={EasyTrace: Easily-Deployable Light-Weight IP Traceback on an AS-Level Overlay Network},
  author={Hongcheng Tian, Jun Bi, Wei Zhang, Xiaoke Jiang},
  journal={IEEE International Conference on Network Protocols (ICNP) 2011},
  year={2011}
}

A Quick Survey on Selected Approaches for Preparing Programmable Networks

Pingping Lin, Jun Bi, Hongyu Hu, Tao Feng, Xiaoke Jiang

Asian Internet Engineering Conference (AINTEC) 2011

NDN/Networking BibTeX

@article{aquicksurveyonselectedapproachesforpreparingprogrammablenetworks2011,
  title={A Quick Survey on Selected Approaches for Preparing Programmable Networks},
  author={Pingping Lin, Jun Bi, Hongyu Hu, Tao Feng, Xiaoke Jiang},
  journal={Asian Internet Engineering Conference (AINTEC) 2011},
  year={2011}
}

DINO-XGrasp

Open-Set Robotic Grasping powered by DINO-X

VLARobotOpen-Set DetectionPick&Place

Enabling robots to grasp any object accurately using consumer-level hardware (camera, GPU, robot arm), powered by open-set detection/segmentation, real-time tracking, and 3D ReID.

IDEA Day showcase

▶

DINO-XGrasp at IDEA Day

▶

Robot's working day

▶

Voice-command grasping

▶

Open-set grasping for bottles

oVP: Optimized Visual Prompt

Supervised Prompt Tuning for Customized Detection

Open-Set Detection

oVP uses Supervised Prompt Tuning (SPT) to generate optimized visual prompts that customize open-set detection for specialized scenarios. Unlike text prompts that rely on category names, SPT learns domain-specific prompt embeddings from as few as 7 labeled images. Only prompt embeddings are updated during training — no model fine-tuning needed. SPT+Grounding DINO 1.6 consistently outperforms YOLOv8 across 12 industry domains (agriculture, construction, manufacturing, retail, etc.), with advantages intensifying as training data decreases.

Grounding DINO 1.6 Blog (SPT section) | DINO-X Report | GitHub

SPT accuracy across 12 industry scenarios

SPT accuracy with varying training data

Port terminal detection with 7 labeled images

Text prompt vs. optimized visual prompt

下面是我为科研和日常使用顺手做的几个小工具——专一、轻量、开源。我刻意保持它们简单，避免功能膨胀，也希望对有同样需求的人有用。

TianYan (天眼) 天眼 TianYan

多格式文件 / 数据集的网页预览器

WebFastAPIReactDataset PreviewerMulti-format

为什么做： 真正在跑的研究项目大多在云端 GPU 上，我想随时看一眼的训练数据、模型输出、深度 / 掩码预测、HDF5 轨迹都躺在远端机器上。把文件 scp 回本地慢，开 Jupyter 只为"瞅一眼"太重，操作系统的文件管理器也不会预览这些 ML 格式。天眼直接以一个小型 Web 服务的形式跑在数据旁边：浏览器打开云端机器，就能在统一可扩展的查看器里检视任意项目的数据集和输出。

主要功能

树状侧边栏，递归浏览任意本地根目录
自动识别文件类型：RGB、深度 (Uint16)、掩码、视频、JSON、文本、表格 (.jsonl/.parquet)、pickle、.npy/.npz、.ply、USD、HDF5
文件元组联动可视化（RGB+深度、RGB+掩码、RGB+深度+掩码、RGB+bbox/掩码 JSON）
支持 HTTP Range 的视频流，多 GB 视频也能秒级跳播
可插拔的查看器架构——加一个后端路由 + 一个 React 组件即可支持新格式
FastAPI + React/Vite 技术栈；开发用 Vite HMR，生产用单进程 uvicorn

GitHub

MobileEye MobileEye 移动眼

运行在 Android 上的文件浏览 Web 服务器

AndroidWeb ServerFile BrowserNanoHTTPD no-adno-login

为什么做： 手机里堆着越来越多的数据——照片、屏幕录像、传感器日志。可所谓"方便"的导出方案各有坑：USB 线慢、还要装桌面客户端；主流文件传输 App 要么逼你上传云、要求账号登录，要么塞满广告。 MobileEye 换了个方向：让手机自己跑一个轻量级局域网 Web 服务器，同一 Wi-Fi 下任意笔记本都能用浏览器浏览、播放、批量上传——无需账号、无广告、不绕公网。它和天眼用同一套 API，所以同一个查看器界面既能浏览本地磁盘，也能浏览手机存储。

主要功能

全部跑在手机上——桌面端无需任何客户端
与天眼同一套 API，同一个网页前端既能浏览电脑磁盘也能浏览手机存储
直接从手机存储进行带 Range 的视频流传输
多 GB 的分片上传，能扛住不稳定 Wi-Fi
自带轻量前端，开箱即用，任何浏览器都能访问
默认只允许局域网访问；可选密码保护

GitHub

手机端界面

Web UI (browsing phone storage from a laptop)

网页端界面（在笔记本上浏览手机存储）

FolderPlayer FolderPlayer 文件夹播放器

以文件夹为单位的 Android 音乐播放器

AndroidMusic PlayerMedia3ExoPlayer no-adno-login

为什么做： 主流 Android 音乐播放器要么被广告淹没，要么把你推向账号 + 云端音乐库，而且统统强制把每首歌导入它们的标签化"音乐库"——这和我组织音乐的方式背道而驰：我就是按文件夹来分（按专辑、按心情、按训练歌单）。 FolderPlayer 让一个文件夹（及其子文件夹）直接就是当前播放列表：选个文件夹，按播放，完事。没广告、不登录、没"音乐库"、不扫盘。

主要功能

文件夹即播放列表：在磁盘树里点击任意子目录开始播放
播放界面读取 ID3 标签，显示专辑封面
睡眠定时关闭，适合靠音乐入睡
在当前文件夹范围内随机播放
后台播放，支持锁屏 / 通知栏控制
引擎使用 Media3 / ExoPlayer：无缝衔接，符合现代音频焦点规范

GitHub

播放器界面

Education

Aug 2010 - Jun 2016

Tsinghua University — Ph.D., Computer Science & Technology

Supervisor: Prof. Jun Bi

Excellent Graduate of CS Department: published 17 peer-reviewed papers, 9 as first author
Thesis: Research on the Key Issues of Usability of Named Data Networking

Jul 2014 - Jul 2015

University of California Los Angeles (UCLA) — Joint PhD Program

Supervisor: Prof. Lixia Zhang

ICCCN'17 paper: NDNS: A DNS-Like Name Service for NDN
Open source: ndns — the DNS system for NDN testbed

Aug 2011 - Jul 2012

Tsinghua-Berkeley Global Technology Entrepreneurship Program

Served as tech leader of 2nd Award Team

Sep 2006 - Jun 2010

Tsinghua University — B.S., School of Software

Supervisor: Prof. Jun Bi and Prof. Fei He

Thesis: Research on the Evolution of IPv6

Work Experience

2022 - now

IDEA — Senior CV Researcher

Open-set Grasping & VLA: Developing systems to enable robots to grasp any object using consumer-level hardware, powered by open-set detection/segmentation, real-time tracking, and 3D ReID

DINO-XGrasp at IDEA Day | Robot's working day | Voice-command grasping | Open-set grasping for bottles

Open-set 3D Detection: Monocular 3D Detection and RGB-D based 3D Detection

Monocular 3D detection | RGB-D 3D detection: chair | RGB-D 3D detection: room

Open-Set Detection & Prompt Tuning: Customize detection targets given labeled dataset and pretrained model

DINO-X report | Grounding DINO 1.6 blog | Grounding DINO 1.5 report

Keypoint Detection: Keypoints detection in the wild

3D Reconstruction & Novel View Synthesis: LeanGaussian (CVPR'25), UniG (ICCV'25), Coca-Splat (arXiv'25)

Inertial Navigation: IMU + GPS + wheel odometry fusion

2018 - 2022

SenseTime — Senior Researcher

Defect Detection: Structured light imaging, defect detection in automobile smart manufacturing

6D Pose Estimation: Uni6D (CVPR'22 Oral), Uni6Dv2 (AISTATS'23)

Person Re-identification: SSN3D (AAAI'21)

AI Automation in Transportation

Outstanding Employee Award: Received the Outstanding Employee Award in 2019

2016 - 2018

Kandao Technology — Senior Engineer

VR Video Streaming & CDN: Smart Streaming of Panoramic Video (SIGCOMM'18 VR Workshop)

Outstanding Employee Award: Received the Outstanding Employee Award in 2017

Skills

Mathematics: Linear Algebra / Lie Algebra / Rotation Group / Probability Theory / Taylor Expansion / Optimization Theory

Programming: Languages: Python, GoLang, C++ / Tools: Linux, git, make, gcc, ffmpeg / Libraries: PyTorch, mmengine, PyTorch Lightning, OpenCV, scikit-learn, matplotlib / Vibe Coding: Claude Code, Cursor

Hobbies

Badminton • Hiking • Programming to solve real-world problems • Reading novels • Philosophy

教育经历

2010.08 - 2016.06

清华大学 — 博士，计算机科学与技术系

导师：毕军教授

计算机系优秀毕业生：博士期间发表17篇同行评审论文，其中9篇为第一作者
论文：命名数据网络可用性关键问题研究

2014.07 - 2015.07

加州大学洛杉矶分校 (UCLA) — 联合培养博士

导师：Lixia Zhang 教授

ICCCN'17 论文：NDNS: A DNS-Like Name Service for NDN
开源项目：ndns — NDN 测试网络的 DNS 系统

2011.08 - 2012.07

清华-伯克利全球技术创业项目

担任二等奖团队技术负责人

2006.09 - 2010.06

清华大学 — 学士，软件学院

导师：毕军教授和贺飞教授

论文：IPv6 演进研究

工作经历

2022 - 至今

IDEA 研究院 — 高级计算机视觉研究员

开放集抓取与 VLA：开发使机器人使用消费级硬件（相机、GPU、机械臂）精准抓取任意物体的系统

DINO-XGrasp 亮相 IDEA Day | 机器人的工作日 | 语音指令抓取 | 开放集瓶子抓取

开放集 3D 检测：单目 3D 检测和 RGB-D 3D 检测

单目 3D 检测 | RGB-D 3D 检测：椅子 | RGB-D 3D 检测：房间

开放集检测与提示调优：基于标注数据集和预训练模型自定义检测目标

DINO-X 报告 | Grounding DINO 1.6 博客 | Grounding DINO 1.5 报告

关键点检测：野外场景下的关键点检测

3D 重建与新视角合成：LeanGaussian (CVPR'25)、UniG (ICCV'25)、Coca-Splat (arXiv'25)

惯性导航：IMU + GPS + 轮式里程计融合

2018 - 2022

商汤科技 — 资深视觉研究员

缺陷检测：结构光成像、汽车智能制造缺陷检测

6D 位姿估计：Uni6D (CVPR'22 Oral)、Uni6Dv2 (AISTATS'23)

行人重识别：SSN3D (AAAI'21)

交通系统 AI 自动化

优秀员工奖：2019年获得优秀员工奖

2016 - 2018

看到科技 — 高级工程师

VR 视频流优化与 CDN：全景视频智能传输 (SIGCOMM'18 VR Workshop)

优秀员工奖：2017年获得优秀员工奖

技能

数学： 线性代数 / 李代数/旋转群 / 概率论 / 泰勒展开 / 优化理论

编程： 语言：Python, GoLang, C++ / 工具：Linux, git, make, gcc, ffmpeg / 库：PyTorch, mmengine, PyTorch Lightning, OpenCV, scikit-learn, matplotlib / Vibe Coding：Claude Code, Cursor

爱好

羽毛球 • 徒步 • 编程解决实际问题 • 小说阅读 • 哲学思考