189 words
1 minutes
【论文阅读笔记】Multimodal Chain-of-Thought Reasoning in Language Models

概要#

文章指出了两个问题:

  1. 之前的研究主要停留在语言形态上(单一模态)
  2. 在参数量小于一千亿(100B)时,模型容易产生误导结果的幻觉推理(hallucinated rationales) 为了减轻幻觉现象,文章提出了Multimodal-CoT融合语言和视觉模态通过一个two-stage framework对rationale和answer分别进行生成。 image 下表是作者使用的模型与同行其他研究使用的模型 image 下表是在ScienceQA数据集上进行benchmark的实验结果对比(NAT =自然科学,SOC =社会科学,LAN =语言科学,TXT =文本上下文,IMG =图像上下文,NO =无上下文,G1-6 = 1-6年级,G7-12 = 7-12年级) image
【论文阅读笔记】Multimodal Chain-of-Thought Reasoning in Language Models
https://yinheee.pages.dev/posts/paper-reading/cot/multimodal-cot/multimodal-cot/
Author
TheColdSummer
Published at
2024-08-08