189 words
1 minutes
【论文阅读笔记】Multimodal Chain-of-Thought Reasoning in Language Models
概要
文章指出了两个问题:
- 之前的研究主要停留在语言形态上(单一模态)
- 在参数量小于一千亿(100B)时,模型容易产生误导结果的幻觉推理(hallucinated rationales) 为了减轻幻觉现象,文章提出了Multimodal-CoT融合语言和视觉模态通过一个two-stage framework对rationale和answer分别进行生成。
下表是作者使用的模型与同行其他研究使用的模型
下表是在ScienceQA数据集上进行benchmark的实验结果对比(NAT =自然科学,SOC =社会科学,LAN =语言科学,TXT =文本上下文,IMG =图像上下文,NO =无上下文,G1-6 = 1-6年级,G7-12 = 7-12年级) 
【论文阅读笔记】Multimodal Chain-of-Thought Reasoning in Language Models
https://yinheee.pages.dev/posts/paper-reading/cot/multimodal-cot/multimodal-cot/