很好的建议,以下为原推翻译:
几位一年级的博士生问我如何开始关于长上下文建模的LLM研究。我第一个建议——虽然有点不寻常——是不要阅读任何关于长上下文的论文,而是与模型对话。
- 找到教科书、课程幻灯片、财务报告、小说、非小说类书籍等任何长篇文档,与模型对话
- 连续两周,每天从早上打开电脑后的第一件事,到晚上睡觉前的最后一件事,都与模型对话
- 提出你能想到的每一个问题,比如PCA是什么?它与SVD有何区别?书中的哪一部分描述了这两者?书中具体怎么说的?
- 与所有你能接触到的模型对话,如GPT、Gemini、Claude、Llama等
- 持续两周,不做研究,不看论文,不上arxiv,只与模型对话
- 在这个过程中,持续观察模型的表现,发现它们的问题,思考为什么模型会这样表现
我发现,经过这个过程的人,对问题的理解水平与那些只读论文的人有着根本性的不同😉