概要#

文章指出了两个问题：

之前的研究主要停留在语言形态上（单一模态）
在参数量小于一千亿（100B）时，模型容易产生误导结果的幻觉推理（hallucinated rationales）为了减轻幻觉现象，文章提出了Multimodal-CoT融合语言和视觉模态通过一个two-stage framework对rationale和answer分别进行生成。下表是作者使用的模型与同行其他研究使用的模型下表是在ScienceQA数据集上进行benchmark的实验结果对比（NAT =自然科学，SOC =社会科学，LAN =语言科学，TXT =文本上下文，IMG =图像上下文，NO =无上下文，G1-6 = 1-6年级，G7-12 = 7-12年级）