我的两个研究方向
研究(白话版)· 02
Two Things I Care About
Two ongoing threads, in plain language and one picture each.
semseg
🎨跨域语义分割
“教模型『波士顿的马路』和『北京的马路』是同一回事。”
我做的是无监督域适应下的语义分割 —— 模型在一个城市 (或一台 LiDAR、或一台显微镜)上训练,却被期待在另一个上面 也能跑。现实从不那么温柔。
我的思路:与其相信高置信度的伪标签,不如去找那些结构性先验 —— 3D 点云里的长程依赖、LiDAR 扫描的密度模式、医学切片中的解剖规律 —— 让几何安静地做一个监督者。
·
lvlm-hallucination
💭大视觉-语言模型的幻觉
“当模型『看到』一只其实并不存在的猫。”
大视觉-语言模型(LVLM)是出色的讲述者,但它们偶尔会把 图像里根本没有的东西说得栩栩如生。
我最近的工作提出注意力对比解码:在解码阶段悄悄抑制 那些『沿着语言先验幻想』的注意力头,同时保留真正在『看图』 的那部分。无需重训,所有手术都在推理时完成。