陈钰佳
个人学术主页
English

我的两个研究方向

研究(白话版)· 02

Two Things I Care About

Two ongoing threads, in plain language and one picture each.

semseg

🎨跨域语义分割

教模型『波士顿的马路』和『北京的马路』是同一回事。

Source domainlabelled · daytime · CityATarget domainunlabelled · dusk · CityBAdapted predictionmy model · domain-invariant
Figure 1. Domain shift between source and target; the prediction stays consistent across both.

我做的是无监督域适应下的语义分割 —— 模型在一个城市 (或一台 LiDAR、或一台显微镜)上训练,却被期待在另一个上面 也能跑。现实从不那么温柔。

我的思路:与其相信高置信度的伪标签,不如去找那些结构性先验 —— 3D 点云里的长程依赖、LiDAR 扫描的密度模式、医学切片中的解剖规律 —— 让几何安静地做一个监督者。

·
lvlm-hallucination

💭大视觉-语言模型的幻觉

当模型『看到』一只其实并不存在的猫。

input imageLVLMVanilla LVLM caption:“A brown dog stands on grass next toa small white cat.”With Attention Contrastive Decoding:“A brown dog stands on grassunder a sunny sky.”hallucinated
Figure 2. A hallucinated object disappears once decoding is corrected.

大视觉-语言模型(LVLM)是出色的讲述者,但它们偶尔会把 图像里根本没有的东西说得栩栩如生。

我最近的工作提出注意力对比解码:在解码阶段悄悄抑制 那些『沿着语言先验幻想』的注意力头,同时保留真正在『看图』 的那部分。无需重训,所有手术都在推理时完成。