在这段时间的学习中,我决定进行更细致的规划。目前,我打算从这三个方面入手:
- Computer Vision
- Data Structures
- Embodied AI
对于前两个而言,我购入了两本书。一本是动手学计算机视觉,一本是王道的数据结构。那么,要学习这两个方向,我需要认真细致地阅读,并辅以配套的视频资源。最好能做好学习笔记,以 .md
的形式记录下来。
对于第三个而言,具身智能的概念太过于宽泛,难以整合学习资源。在网上查阅资料之后,我打算参照东林钟声的知乎专栏中给出的路线进行学习:
1.Robotics
- 至少需要掌握D-H参数、正逆运动学、雅克比矩阵、动力学、轨迹规划、跟踪控制等。可以参考《Modern Robotics》
2.基础模型
了解一些深度学习模型,需搞清楚
Transformer
和Diffusion Layer
。可以按照如下的学习路线:
1
MLP -> RNN -> Transformer -> Stable Diffusion
可以参考李沐的《动手学深度学习》和他在B站上的视频。
学习完
Transformer
之后,可以了解一下LLM
和VLM
背后的原理,比如阅读相关论文。
3.强化学习
- 对我而言,之前 RL 涉及的不是很多。主要需要搞明白
Q-Learing
Temporal Difference
Policy Gradient
和Actor-Critic
。
4.Robotics和LLM
- 之前智创的学长讲过AI agent驱动的物理机器人,这应该也算
Embodied AI
的一种实现(? 不过目前LLM驱动机器人可能存在一些问题,如延迟等;但非LLM机器人 (比如用纯Transformer) 虽然快,但效果很可能不尽如人意。因此,仍需在二者之间寻找平衡点。
可以阅读知乎专栏
5.模仿学习
- 在有了多模态数据的基础上,可能模仿学习相对于强化学习会有更大的作用。
- 可以阅读以下两个内容:Diffusion Policy 和 Action Chunking Transformers (ACT)。
6.其他
- PL: C++ and Python
- ROS
- Computer Network and Data Structures
- …
7.复现论文
- 尝试在
Push-T
环境下进行复现:Diffusion Policy