TheColdSummer - Hello World!

【论文阅读笔记】OneLLM: One Framework to Align All Modalities with Language

2025-01-30

论文介绍了一个名为OneLLM的多模态大语言模型，旨在通过一个统一的框架将八种不同的模态与语言对齐

1529 words

8 minutes

3D-LLM: Injecting the 3D World into Large Language Models

2025-01-25

最早探索3D LLM的文章之一，尝试将3D世界的信息注入到大型语言模型中

1320 words

7 minutes

3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding

2025-01-25

3UR-LLM，专门用于3D场景理解任务，旨在通过直接处理3D点云数据，准确地解释3D场景中的空间位置、物体间关系以及因果逻辑，并生成对人类指令的详细响应

1218 words

6 minutes

Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

2025-01-25

文章研究了如何通过一种新的提示方法（Visualization-of-Thought, VoT）来增强大型语言模型（LLMs）的空间推理能力

394 words

2 minutes

NExT-GPT: Any-to-Any Multimodal LLM

2025-01-25

alt text 这篇论文研究了一种名为 NExT-GPT 的新型多模态大语言模型（Multimodal Large Language Model, MM-LLM），旨在实现任意模态（Any-to-Any）的输入和输出，即能够接受和生成文本、图像、视频和音频等多种模态的内容。

1909 words

10 minutes

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

2025-01-25

文章研究了多模态大语言模型（MLLMs）在视觉空间智能（visual-spatial intelligence）方面的能力

2384 words

12 minutes

【论文阅读笔记】MagicMap: Enhancing Indoor Navigation Experience in VR Museums

2025-01-17

提出了一套未来VR博物馆或类似复杂室内环境中导航技术的设计指南

1509 words

8 minutes

【论文阅读笔记】Map-Relative Pose Regression for Visual Re-Localization

2024-12-02

论文介绍了一个名为OneLLM的多模态大语言模型，旨在通过一个统一的框架将八种不同的模态与语言对齐

1801 words

9 minutes

2 3 4 5