0%

Reflections of LLM

行文思路

ref

  1. CoreWeave: https://www.techflowpost.com/article/detail_12671.html
  2. Li Bojie: AI 大模型创业的 10 个灵魂拷问 - 知乎 (zhihu.com)
  1. 先讲现状:调研各个LLM(GPT4->闭源 top模型, Claude, Microsoft Bing, copilot, 文心一言, ChatGLM, 讯飞星火),要从全局上分析大模型->基础大模型、中间件、下游应用、fine-tuning的模型的现状。谈商业方面->股市,估值(运作方式,整体市场体量),黄老板Nvidia,商业化还需要向市场证明什么特性(稳定性, 高可用, 如何赋能)
  2. 技术角度分析LLM,是否是骗局?LeCUN(反对LLM,认为人脑的思考模式和LLM有本质区别),为什么ChatGPT一出现就火速出现了大量同类型产品(分析原因–技术没有很新,只是有人已经证明了可行性,所以同类产品马上涌现)
  3. 根据自己的研究背景,LLM扩展到多模态->CV,再从比较了解的CV领域的发展(体外话:借助像何恺明这种最有标志性的AI学者的研究历程,谈谈研究开发者从个人角度出发,在大环境下如何给自己赋能)->借鉴到LLM

LLM产业现状

LLM调研

首先,需要对大模型有一个宏观总体的认识。我认为市面上时兴的大模型可以分为三大类

  1. 基础大模型:指OpenAI -> ChatGPT, GPT4, MetaAI -> LLaMA这种自行预训练,经过多轮优化推出的大模型。值得一提的是,MetaAI将大模型相关代码全部开源,并且提供了行业标杆的预训练数据集RedPajama
  2. fine-tune后服务于下游产业的大模型:基于基础大模型,为满足特定领域的需求,fine-tune的大模型。特点是更加专业化,开发周期短
  3. 直接调用api做应用产品:严格意义上,并不能称之为一类大模型,但这是当下大模型最活跃的应用场景–计算机从业人员使用大模型占比还是最高,使用api接口, 可以为开发者提供更专门化的服务。在基础大模型的加持下,个人开发者、或是仅仅几个人的团队就可以通过更精细、更个性化的Prompt迅速完成开发,比如说2023/10/11 Github trending榜上,第一名gpt-pilot就是基于基础大模型的api进行的二次开发,旨在帮助开发者快速编写可扩展的应用程序,同时开发人员可以监督,防止出现LLM由于理解误差导致的bug。

在上面三类中,最值得一提就是基础大模型。2023/4/30,论文Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond的作者pull出一张从技术架构角度分类LLM的图,总结了语言大模型自2018年出现以来,所有的基础大模型如下图:(无Claude 2, 因为是2023/7的产品)

image-20231011162834623

上图中,先按照使用RNN/Transformer架构可以分两类:

RNN架构是灰色的树枝,其他都是Transformer架构下。可以看出RNN架构在2019年后再没有进展,这主要是因为循环神经网络(RNN)对上下文的检索能力有限,而语言大模型主要就是靠上下文长度(Token长度)提供更加符合语境的回答。

在Transformer架构下,可以分为三类:

  1. Encoder-Only: 上图的粉色线条,Encoder目前的做法主要是使用Masked Attention技术,通过预测掩码获得表达能力和预测能力;
  2. Encoder-Decoder: 上图的绿色线条,Decoder是一种生成式技术。通常具有更强的序列学习和生成能力,尤其擅长实现输入序列到输出序列的结构映射,所以在机器翻译、文摘生成和聊天机器人等任务上有更好的应用前景;(从上图也可以看出:这条线路以Google为代表)
  3. Decoder-Only: 上图中深蓝色线条,抛弃了Encoder后,结构更简单,训练和推理任务更加迅速,不需要为输入产生编码,专注于生成序列,这条线路也是目前最常见的大模型都在使用的(eg:GPT4, Claude 2)

杨植麟:AI领域对语言模型的认知,存在三个阶段的变化:

2017年前,大家觉得语言模型有一些有限的作用,比如在这些语音识别、排序、语法、拼写等等小的场景里面可以做辅助,但用例(Use Case)都很小;
第二个阶段:Transformer、Bard出现后,语言模型可以做绝大部分的任务,但它还是一个辅助的角色——我有一个语言模型,AI工程师微调一下任务就好了;
到第三阶段,整个AI领域发展到最后,大家的认知会变成:所有东西其实都是语言模型,语言模型是唯一的问题,或者说是next token prediction(预测下一个字段)是唯一的问题。
这个世界其实就是一个硬盘模型,当人类文明数字化之后,所有人类文明之和就是硬盘的总和。输入的Token是语言,或者也可以是别的东西——只要能预测下一个Token是什么,那我就能实现了智能。
从思想到系统的层面,其实技术发生了非常大的变化,这里面有很多变量。然后你就可以在这个空间里面去看,怎么把这些技术做的更好。

接下来,我对几个最具有代表性的大模型进行了一些调研

  1. GPT4(GPT系列)
  2. Claude 2
  3. Stable Diffusion
  4. copilot

LLM产业链

商业角度分析LLM产业痛点