我的两个研究方向

研究（白话版）· 02

Two Things I Care About

Two ongoing threads, in plain language and one picture each.

semseg

“教模型『波士顿的马路』和『北京的马路』是同一回事。”

Figure 1. Domain shift between source and target; the prediction stays consistent across both.

我做的是无监督域适应下的语义分割 —— 模型在一个城市（或一台 LiDAR、或一台显微镜）上训练，却被期待在另一个上面也能跑。现实从不那么温柔。

我的思路：与其相信高置信度的伪标签，不如去找那些结构性先验 —— 3D 点云里的长程依赖、LiDAR 扫描的密度模式、医学切片中的解剖规律 —— 让几何安静地做一个监督者。

lvlm-hallucination

“当模型『看到』一只其实并不存在的猫。”

Figure 2. A hallucinated object disappears once decoding is corrected.

大视觉-语言模型（LVLM）是出色的讲述者，但它们偶尔会把图像里根本没有的东西说得栩栩如生。

我最近的工作提出注意力对比解码：在解码阶段悄悄抑制那些『沿着语言先验幻想』的注意力头，同时保留真正在『看图』的那部分。无需重训，所有手术都在推理时完成。