(新浪科技)技术人才短缺,台积电美国首座工厂将推迟一年投产7 月 25 日消息,芯片制造商台积电宣布,其在美国亚利桑那州的首座工厂将推迟一年投产,至 2025 年。
因此,每一家企业都会想要建立自己的大模型,这为我们带来了万亿级别的商机,即如何帮助企业快速建立大模型。自2021年GPT2问世,我们就开始关注了,并将机器学习平台向大模型开发方向迁移。
我们在自然语言处理(NLP)领域的深耕已有近8年,大语言模型也是NLP领域,最大的突破是生成式AI以及将大语言模型训练工程实现,现在企业面对的挑战是如何克服大模型的落地的种种挑战,将大语言模型应用到业务场景中,达到业务的效果,而不是只有炫技。谷歌并未开源其模型,目前仍保持闭源状态。目前要把大模型用好,需要很好的提示词,这个99%以上的人是不会的,绝大多数的人他们只关心自己所使用的产品的性能能不能给他们带来价值,所以应用最重要。企业无法直接引入像ChatGPT这样的模型。像Open AI的GPT-4,由于模型参数庞大,需要的训练数据与维护工作量庞大,寻要的GPU资源更高达24000张A100-80G的GPU,是不可能将GPT-4这样的模型部署到客户端去操作。
在有限的预算内,帮助企业将大模型融入业务系统,才是真正值得我们关心的大模型发展趋势。此外,我认为企业所需的并非仅仅是一个大模型,而是多个大模型,使用 EmotiBrain Model Factory,能高效训练微调大模型,更能进一步降低成本。雷峰网:安全问题保证了,对于竹间来说做大模型最难的是什么?简仁贤:数据梳理。
在这种情况下,企业如果想要享受大模型的能力,对我们来说就意味着巨大的商业机会。同时,雷峰网还了解到,早在2021年GPT 2刚出来时竹间智能就开始研究,并逐渐把机器学习平台往大模型上迁移。从大模型的概念火出圈后,国内出现了多家大模型产品,诸如百度的文心一言、阿里商务千义通问、讯飞星火认知、商汤日日新...比比皆是,有关大模型的讨论也都是参数是多少、做到什么程度了等等。客户将可以直接看到效果,竹间提供从准备数据,模型微调,最有效的微调方法,将微调训练的know-how开发到EmotiBrain的模型工厂中,而且成本相对较低,无需自备GPU资源,既可以享有定制化的大模型。
因此,我认为未来的软件范式是模型+知识+应用。大模型是根据训练的数据来生成结果的。
另一个现实是:目前没有任何非AI企业有足够的计算资源和预算来开发通用大模型。因此,每一家企业都会想要建立自己的大模型,这为我们带来了万亿级别的商机,即如何帮助企业快速建立大模型。如果没有,就很难进行,需要从数据收集和准备训练数据做起。目前,我们正在与数十个客户进行商谈,他们对大模型还是比较接受的。
雷峰网:具体怎么帮企业做落地?简仁贤:我们提供的服务相当于预先训练好基础模型,将该模型部署到我们的大模型工厂(LLM Factory))上,再将其部署到客户端,允许客户使用自己的数据来训练自己的模型,并自动集成到企业的应用中。模型是否有价值?我举个例子,如果你回家跟家里的老人和孩子说:我有一个大模型,他们可能无法理解你在说什么。随着今年大模型的爆发,现在大多数客户都明白了大模型能够给企业带来什么样的价值。做好数据梳理,帮企业落地模型才是王道雷峰网:与通用大模型相比,竹间做大模型的意义是什么?简仁贤:通用人工智能,AGI,并不能真正解决企业的业务问题,绝大多数的公司都不能把自己的私有数据上传出去。
更实际的,企业并不需要上千参数量的大模型,大部分的需求,用7B或13B都能完成。对此,简仁贤还特别举例道:如果你和家里人说我有个大模型,他们可能无法理解你在说什么,但如果你说有个APP,你只需跟它说几句话,它就能帮你写信,他们反而能迅速理解并接受,他们才不会关心你背后是大模型还是什么。
如果坚持所有事情都从零开始,在企业落地阶段,可能并不现实。创办初期,简仁贤带领团队专心搞研发,2017年开始尝试做商业化探索,2020年形成规模化发展。
我在之前几次演讲中也提到过,模型与用户之间存在着一道巨大的鸿沟。实际上,由于不可控的因素,数据安全的隐忧,许多国家和企业已经开始限制使用ChatGPT。近8年来,企业对我们的信任度高,我们也深入理解他们在NLP的需求,有助于企业将大语言模型落地。我们的愿景是让每个人都能拥有一个机器人。不做C端,瞄准B端,坚持做企业级大模型产品雷峰网(公众号:雷峰网):和前几个月相比,您对大模型的发展有改观吗?简仁贤:近期大模型的发展和我几个月前的预测存在一些出入。我们在与客户交流的过程中发现,他们的需求不是高考,获取律师资格、取得MBA,他们需要的是解决自己的业务问题,而中大型模型就足以满足这一需求。
企业无法直接引入像ChatGPT这样的模型。各种模型都可以有不同大小的 size, 不同数量级的参数,这就好比我们喜欢的衣服有S、M、L、XL、XXL各种尺码,我们可以从以前的S尺码模型做到现在的M、L,甚至是XL尺码的模型。
只能使用通用大模型来解决通用问题,例如撰写文章、修改文章等简单任务。雷峰网:所以您认为,大模型是不是自研已经不重要了?简仁贤:坦率来说,目前绝大多数的生成式AI都是基于谷歌开发的 Transformer 开发出来的模型, 如果谷歌没有开源Transformer,OpenAI就没法开发出ChatGPT,也就不会有GPT 4。
如今,我们已经拓展了原有积累多年的自动化机器学习平台和数据标注运营平台,因此在这个系统上,我们可以训练微调出许多不同的大模型,依照企业的需求,实现专属于企业的定制化行业大模型的落地。雷峰网:具体怎么帮企业选择合适的模型?简仁贤:EmotiBrain 有大模型商店,里面有预训练好的行业大模型,不同任务的专有模型,我们还拥有一套实际的Benchmark系统,可同时训练,评估,及比较多个大模型。
比如,在我们今天谈论科技时,全球近80亿的人口中,大部分人对大模型这些高科技概念并不了解,他们碰不到、摸不到、看不到。我们的通用大模型和模型工厂部署到客户端,结合客户的数据和行业know-how,再进行参数调整,便能微调训练出一个7B-65B的大模型。雷峰网:这是我们和其他厂商相比,最具优势的地方吗?简仁贤:对。雷峰网:竹间的大模型是自研的还是?简仁贤:我们的大模型开发有两种方式:一是自主研发,二是基于其他预训练的大模型进行开发。
创建企业定制化的大模型主要取决于企业自身是否有数据积累。那么,如何架设一座桥梁跨越这个鸿沟呢?这座桥就是应用,就是产品。
数据梳理和数据标注是两个概念。反观国内大模型的发展,确实如此。
就像我刚才举的例子,Transformer是谷歌开源的,但是在谷歌的PaLM 2中使用的训练数据是从GPT 4产生的语料中获取的。微软也同样如此,他们使用GPT 4为Office全家桶和Bing等产品做了升级,他们所做的就是最后一公里的工作。
那竹间提供的大模型工厂(LLM Factory)可以在短时间内,快速且低成本的,帮助企业构建自己的大模型,将其部署到本地并与现有系统融合,从而协助企业进行业务的升级。如果只有模型和知识,却没有应用,那么它就无法被人们所接受。完成训练后,我们的Benchmark 系统可以对训练结果进行比较,然后根据客户的不同业务场景与目标,为他们选择最合适的模型,企业不再需要花大钱组建模型训练团队。转眼到2023年,在人们还在谈论大模型怎么做的时候,竹间智能就推出了大模型工厂(LLM Factory)。
谷歌也是一样,与OpenAI一样开发AGI,并且在为自己的产品以大模型的能力升级,谷歌和微软的大模型都还是闭源的。雷峰网:那竹间应用层的产品接入大模型的能力了吗?简仁贤:我们原有的4个产品都已经具备大模型的能力,并且已开发的四种应用也是基于大模型的原生产品,我们的SaaS 产品也已经接入大模型了,也已经开放给许多客户试用了。
雷峰网:大模型工厂(LLM Factory)具体可以做什么?简仁贤:大语言模型工厂(LLM Factory)的运行机制非常复杂,整条模型训练微调的流水线从数据梳理清洗,人工标注,到选择预训练基础模型,实验不同的微调方法,不同人物进行多次微调,并评估模型结果,再加入人工反馈强化学习机制,上下文学习,等等,进而自动化地完成模型交付。谷歌并未开源其模型,目前仍保持闭源状态。
比如,设定三种模型,三种不同的微调训练方法,以及三种不同的训练数据,就可以训练出27种不同的模型。但值得注意的是,彼时国内对NLP的研发还处于空白,也没有一款成熟的NLP产品出现。