【论文阅读笔记】OneLLM: One Framework to Align All Modalities with Language
2025-01-30
论文介绍了一个名为OneLLM的多模态大语言模型,旨在通过一个统一的框架将八种不同的模态与语言对齐
1529 words
|
8 minutes
3D-LLM: Injecting the 3D World into Large Language Models
2025-01-25
最早探索3D LLM的文章之一,尝试将3D世界的信息注入到大型语言模型中
1320 words
|
7 minutes
3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding
2025-01-25
3UR-LLM,专门用于3D场景理解任务,旨在通过直接处理3D点云数据,准确地解释3D场景中的空间位置、物体间关系以及因果逻辑,并生成对人类指令的详细响应
1218 words
|
6 minutes
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
2025-01-25
文章研究了如何通过一种新的提示方法(Visualization-of-Thought, VoT)来增强大型语言模型(LLMs)的空间推理能力
394 words
|
2 minutes
NExT-GPT: Any-to-Any Multimodal LLM
2025-01-25
alt text 这篇论文研究了一种名为 NExT-GPT 的新型多模态大语言模型(Multimodal Large Language Model, MM-LLM),旨在实现任意模态(Any-to-Any)的输入和输出,即能够接受和生成文本、图像、视频和音频等多种模态的内容。
1909 words
|
10 minutes
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
2025-01-25
文章研究了多模态大语言模型(MLLMs)在视觉空间智能(visual-spatial intelligence)方面的能力
2384 words
|
12 minutes
【论文阅读笔记】MagicMap: Enhancing Indoor Navigation Experience in VR Museums
2025-01-17
提出了一套未来VR博物馆或类似复杂室内环境中导航技术的设计指南
1509 words
|
8 minutes
【论文阅读笔记】Map-Relative Pose Regression for Visual Re-Localization
2024-12-02
论文介绍了一个名为OneLLM的多模态大语言模型,旨在通过一个统一的框架将八种不同的模态与语言对齐
1801 words
|
9 minutes
