【人工智能】中国大模型行业的五个真问题 | 究竟应该如何看待国内大模型行业的发展现状 | 模型 | 算力 | 数据 | 资本 | 商业化 | 人才 | 反思
Summary
TLDR在这段视频中,大飞探讨了中国大模型产业的现状和面临的挑战。他提到,尽管中国公司在2023年密集发布了超过130个大模型,但许多模型被质疑是“套壳”,即直接使用或修改国外的开源模型。大飞指出,中国大模型产业存在五大问题:模型本身、算力、数据、资本和商业化,这些问题相互关联,难以单独解决。他强调,尽管大模型产业在中国迅速发展,但原创性和突破性发展受到资本短视和市场现实的限制。大飞还提到,中国大模型产业的未来趋势可能包括融资热度的下降、大模型应用的深入以及国产算力的重视,但同时也警告了可能出现的炒作和泡沫现象。
Takeaways
- 🚀 中国大模型产业在2023年发布了超过130个大模型,但存在原创性不足和“套壳”现象。
- 💡 OpenAI在大模型方向上的成功促使中国公司纷纷跟进,但面临技术和资源上的挑战。
- 🔍 部分中国大模型被质疑仅是重命名或拼装现有开源模型,缺乏真正的技术创新。
- 📈 OpenAI使用大量算力和数据,以及顶尖人才,经过多年才打造出GPT4,而中国公司在短时间内难以复制这一成就。
- 🤔 中国大模型产业面临算力、数据、资本和商业化等多重问题,这些问题相互关联,难以单独解决。
- 💼 算力成本高昂,中国公司在GPU等硬件资源上的投入有限,影响了大模型的研发和训练。
- 📊 数据质量问题突出,中文互联网数据质量普遍较低,且缺乏有效的数据保护和标准化服务。
- 📉 资本市场对大模型产业的投资趋于短视,追求快速回报,不利于长期技术积累和产品打磨。
- 📈 商业化路径不明确,B端市场对大模型的需求和接受度有限,C端市场短期内难以实现大规模付费。
- ⚙️ 国产算力的发展受到重视,但短期内难以看到明显进步,需要长期投入和研发。
- 🧐 人才问题背后反映的是教育和社会体制的深层次问题,需要更广泛的讨论和改革。
Q & A
中国大模型产业在2023年发布了多少个大模型?
-2023年,中国公司发布的大模型数量已经超过130个。
为什么说中国大模型产业存在问题,并且问题主要体现在哪些方面?
-中国大模型产业存在问题,主要体现在模型本身、算力、数据、资本和商业化五个方面,这些问题之间互为因果,每个问题都无法独立解决。
为什么说OpenAI在大模型方向上的投入和坚持是值得中国公司学习的?
-OpenAI在大模型方向上的投入和坚持值得学习,因为他们在算力、数据和人才方面都有持续的高投入,即使在面临“幻觉”问题时,也用了超过八年的时间才打造出突破性的产品GPT4。
中国大模型产业中的“套壳”现象指的是什么?
-“套壳”现象指的是部分中国大模型直接使用了国外的开源大模型,仅做了少量的调整,导致在一些检验大模型能力的榜单上排名靠前,但实际并非真正的原创。
中国大模型产业在算力方面面临哪些挑战?
-中国大模型产业在算力方面面临的挑战包括GPU价格昂贵、部署和运营成本高、以及创业公司难以承担大规模GPU购买和部署的风险。
为什么说数据是大模型产业的一个难以绕过的难题?
-数据是大模型产业的一个难以绕过的难题,因为高质量的数据获取和处理需要大量的投入,而中国市场上的数据服务多为定制化且成本高昂,同时市场上缺乏有效的数据保护手段。
资本短视对中国大模型产业有什么影响?
-资本短视导致投资人更倾向于快速退出获得回报,而不是长期投入和培育项目,这限制了大模型产业的长期发展和技术突破。
中国大模型产业在商业化方面面临哪些挑战?
-中国大模型产业在商业化方面面临的挑战包括C端付费用户增长缓慢、B端市场难以突破,以及大模型在专业场景中存在的“幻觉”问题影响实际应用。
为什么说中国大模型产业的发展需要撇开泡沫才能看清新机会?
-因为风口刺激产业迅速扩张的同时,泡沫也随之而生。只有撇开泡沫,才能更清晰地看到产业发展的真实情况和新机会,避免盲目跟风和资源浪费。
中国大模型产业的发展趋势有哪些?
-中国大模型产业的发展趋势包括融资热度下滑、大模型应用持续深入数字化程度高的领域、国产算力得到进一步重视但进步缓慢,以及需要找到新的变现模式。
为什么说人才问题是大模型产业发展背后一个更为深远的话题?
-人才问题是大模型产业发展背后一个更为深远的话题,因为它涉及到教育、社会体制等更深层次的因素,如钱学森之问所提出的,为什么我们的学校总是培养不出杰出的人才,这关系到整个国家的创新能力和未来发展潜力。
Outlines
🤔 中国大模型产业现状与挑战
本段讨论了中国大模型产业的现状,提到了2023年中国公司发布了超过130个大模型,但存在诸多问题。尽管OpenAI的大模型方向被认可,中国公司却面临原创性不足、算力和数据投入不足、资本短视和商业化困难等问题。同时,提到了大模型产业的五个核心问题:模型本身、算力、数据、资本和商业化,这些问题相互关联,难以单独解决。
📈 原创与套壳:大模型产业的真假问题
这一段深入探讨了中国大模型产业的三个主要类别:原创大模型、套壳国外开源大模型和拼装大模型。原创大模型因技术积累和高投入而风险巨大,而套壳和拼装模型虽然风险较低,却因强调原创性而导致内耗和刷榜现象。此外,算力问题也被提及,包括GPU的高成本、部署和运营的挑战,以及创业公司面临的算力投资风险。
📊 数据与资本:大模型产业的双重难题
第三段着重讨论了数据和资本问题。中文互联网数据质量普遍认为较低,且数据服务成本高昂,导致数据加工和清洗工作难以开展。资本方面,投资人倾向于短期内获得回报,导致创业公司难以进行长期的研发投入。同时,提到了投资人推动快速融资和上市的策略,以及中国专业投资机构面临的募资和退出限制。
🚀 商业化前景:大模型产业的未来趋势
最后一段预测了2024年大模型产业的商业化趋势,指出融资热度将下降,大模型将更深入地应用于数字化程度高的领域。同时,讨论了B端服务的挑战,特别是政府和国企对减少人力的抵触,以及大模型在专业场景中落地的困难。此外,提到了国产算力的重视和提升,以及可能出现的炒作现象。最后,提出了人才问题,暗示了教育和社会体制对产业发展的深远影响。
Mindmap
Keywords
💡大模型产业
💡OpenAI
💡算力
💡数据
💡资本
💡商业化
💡套壳
💡原创大模型
💡拼装大模型
💡幻觉问题
💡人才
Highlights
中国大模型产业在2023年面临的问题和挑战,包括模型本身、算力、数据、资本和商业化五个方面的问题。
2023年,中国公司发布的大模型数量超过130个,但存在质量和原创性的问题。
OpenAI在大模型方向上的坚持和投入,包括算力、数据和人才方面的大量资源。
中国公司在大模型开发上的时间紧迫和资源投入不足,与OpenAI的长期投入形成对比。
部分中国大模型被指出是“套壳”,即直接使用了国外的开源大模型。
中国大模型产业的三个主要类别:原创大模型、套壳国外的开源大模型和拼装大模型。
原创大模型需要强大的技术积累和高投入,但风险很大。
大模型的价值需要通过商业化来证明,而市场上已有优秀基础大模型。
算力成本的上升和GPU资源的获取难度对创业公司构成挑战。
中国大模型产业在数据获取和处理上面临质量和成本的双重问题。
资本短视和退出压力导致中国大模型创业公司面临融资和商业化的压力。
中国大模型产业的商业化方向主要在B端服务,但面临政府和国企的阻力。
2024年AI大模型发展的趋势,包括融资热度下滑、应用深入和国产算力的重视。
中国大模型产业需要撇开泡沫,寻找产业发展的新机会。
人才问题是中国大模型产业发展背后的一个深远话题。
中国大模型产业的发展受到教育和社会体制等更广泛因素的影响。
Transcripts
大家好,这里是最佳拍档,我是大飞
今天聊一个比较敏感的话题
谈谈中国大模型产业到底有没有问题
存在哪些问题
这个话题一说
估计又有很多人要跳出来喷我了
又要扣上外宣、公知这样的帽子了
说实在
那真是高看大飞我这一个屁民了
你说国内的老百姓
现在除了吃瓜吐槽
现在还能干点啥呢?
所以我今天要给大家分享的
是国内知名媒体《财经十一人》的一篇文章
题目就叫《中国大模型产业的五个真问题》,
所以如果你觉得今天视频的内容
让你小小的自尊心感觉不舒服了
别喷我,去找财经十一人哈
文章内容比较长
我大概总结一下核心内容
大家听听看是不是这么回事
对错与否自己去判断
先简单说一些我们都已经知道了的事
2023年
在OpenAI发布ChatGPT的几个月里
中国公司密集发布自己的大模型
整个2023年
中国公司发布的大模型数量已经超过130个
可是在ChatGPT发布之前的很长一段时间里
产业界和投资界大多不看好OpenAI
但是并未动摇它的方向,直到2023年
几乎所有人都认可了大模型的方向
大家认为
OpenAI已经把结果摆出来了
其他公司要做的就是尽快跟进
不断优化,确保能参与未来
有些人把过去没有大规模投入大模型的原因
归咎于结果的不确定性
但是现在已经确定了
算力、数据、人才都可以加大投入
按理说
中国公司最擅长的就是工程优化
当时很多人觉得
做出能实际应用的大模型产品已经指日可待了
但是事实真的如此吗?
对于OpenAI来说
大模型从来都是确定的方向
OpenAI的大部分资金都花在了算力上
当时英伟达的A100价格比今天低很多
根据第三方数据机构SemiAnalysis估计
OpenAI使用了大约3617台HGX A100服务器
包含近3万块英伟达GPU
当然光有GPU还不够
投资方微软还帮助OpenAI搭建了大模型定制化的算力集群
能够进一步提升这些GPU的效率
在数据方面
OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续得投入
而在人才方面
OpenAI团队中大部分人
都来自顶尖的科研机构或科技巨头
也就是说
在这种财力、实力和投入的力度之下
OpenAI依然用了超过八年的时间
才打造出突破性的产品GPT4
而且还存在无法彻底解决的“幻觉”问题
那么为什么中国公司在几个月的时间里
就能做出号称匹敌GPT4的大模型?
这又是谁的幻觉呢?
从2023年的下半年开始
陆续有部分大模型被指出是“套壳”,
直接套用了国外的开源大模型
在一些检验大模型能力的榜单上排名靠前
不少指标都接近GPT4
甚至榜单表现越好,套壳比例越高
略有调整表现就会变差
而“套壳”还只是中国大模型产业现状的冰山一角
这背后折射出了产业发展的五个问题
分别是模型本身、算力、数据、资本和商业化
它们之间互为因果
每个问题都无法独立解决
而在2024年
这五个问题会进一步的暴露
首先来说一下模型本身的问题
2023年11月
李开复创办的“零一万物”被国外开发者质疑套壳LLaMA
只是重命名了两个张量
很不巧我也做了一期相关节目
随后,李开复和零一万物均做出回应
称在训练过程中沿用了开源架构
出发点是充分测试模型
执行对比实验
这样能快速起步
但是发布的Yi-34B和Yi-6B模型都是从0开始训练
并做了大量原创性优化和突破工作
2023年12月
字节跳动被爆出秘密研发的大模型项目中
调用了OpenAI的API
并使用ChatGPT输出的数据进行自己的模型训练
而这是OpenAI的使用协议中明确禁止的行为
随后,OpenAI暂停了字节的账号
表示会进一步调查
如果属实将要求更改或终止账户
字节对此的回应是,2023年初
技术团队在大模型探索初期
有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中
该模型仅为测试,没有计划上线
也从未对外使用
在2023年4月公司引入GPT API调用规范检查后
这种做法已经停止
目前国产大模型中,主要分为三类
一是原创大模型;
二是套壳国外的开源大模型;
三是拼装大模型
也就是把过去的小模型们拼在一起
变成参数量看起来很大的“大模型”。
其中,原创大模型数量最少
做原创大模型需要有很强的技术积累
且要有持续的高投入,风险很大
因为一旦模型没有足够强的竞争力
这些大规模投入就打了水漂
大模型的价值需要商业化来证明
当市场上已经出现足够好的基础大模型
其他公司应该去挖掘新的价值点
比如大模型在不同领域的应用
或是中间层
比如帮大模型训练、数据处理、算力服务等
但是现状是
大部分参与者都在“卷”所谓的“原创大模型”,
又担心风险太高
于是有了大量套壳、拼装的大模型
其实无论是直接使用开源模型或是拼装模型
只要符合相关规范
都没有问题
等到商业化落地阶段
客户也不太会在意你是否原创
有用就行
甚至不少客户会因为成本更低
更愿意选择非原创的技术
问题在于,即使是拼装和套壳
现在大家也要不断强调“原创”,
为了证明自己是“原创”的
就需要不断的调整修改
而这又会影响大模型的迭代能力
逐渐陷入到内耗、刷榜、作假的境地
其次是算力方面的问题
大模型的基础之一是海量算力
而且是先进算力
因此大模型也被称为暴力美学
英伟达的A100此前被认为是最适合训练大模型的
近期英伟达又推出了更先进的算力芯片H100
但是还没有在中国市场开售
2023年,A100的售价涨了约1倍
但是在2023年
密集购买A100的中国公司主要还是那些自身有业务需求的大厂
包括阿里巴巴、腾讯、字节跳动、百度等
创业公司其实很少
有一些知名的大模型创业公司
会主动要求和英伟达建立所谓的战略合作关系
以此来对外证明自己在投入算力
但是是“不给钱的那种”。
尽管有美国政府的“出口管制规则”,
中国公司想要获得英伟达的算力
也并非不可能
目前有很多方式可以选择
除了直接购买
还可以通过英伟达在中国的合作伙伴购买
不过,除了GPU本身很贵以外
买来之后的部署、运营、调试、使用
都是一笔不小的成本
此前业内流传的一句话是
中国不少科研机构连A100的电费都付不起
我们可以简单来算一下
由八张A100组成的DGX服务器最大功率是6.5kW
也就是运行一小时需要6.5度电
同时要搭配大约同等电量的散热设备
按照平均工业用电每度0.63元计算
一台服务器开一天24小时的电费
就大概200元
如果是1000台服务器
一天的电费就是大概20万元
因此,除了大厂以外
其实创业公司很难大规模的购买、部署GPU
不过,好歹GPU资源还可以租用
在阿里云、腾讯云或是亚马逊AWS等云服务平台上
都可以直接租用A100算力服务
虽然租金同样在过去一年涨了不少
但是实际情况是
不少大模型公司其实并不想在算力上做大规模投入
很多AI方向的投资人都知道
一旦创业公司开始部署算力
会出现两个“问题”,
一是这个投入没有上限,没有终点
谁也不知道要烧到什么程度
哪怕是OpenAI
到今天还会因为算力跟不上而出现宕机
二是公司会因此变成重资产公司
这对于公司未来的估值有不利影响
会直接影响到投资人的收益
2023年
中国不少投资人会直接告诉大模型创业者
先招一些名校背景的人
抓紧开发布会
发布大模型产品,然后做下一轮融资
不要去买算力
于是创业公司们都想在在风口期拿到大量融资
高薪招人,高调发布产品,推高估值
一旦风口过去
继续融资或是上市就需要收入
到时候再通过此前融到的钱
去低价甚至亏本竞标项目
或是直接对外投资来并表收入
当然,随之而来的是
创业公司不愿意承担算力高投入的风险
就很难在大模型领域有突破性发展
也就难以和那些真正在这个方向上大规模投入的巨头们竞争
所以
我们平时总是会对外强调被卡了脖子
但究竟是被别人卡脖子
还是自己不想买呢?
再次是数据方面,现在我们都很清楚
数据和算力都是大模型的基础
在数据方面
中国大模型产业其实面临和算力同样的问题
那就是是否值得大规模投入?
在中国,一般的数据获取门槛很低
过去主要是用爬虫工具来收集数据
现在可以直接用开源的数据集
中国大模型以中文数据为主
而业内普遍认为中文互联网数据的质量较低
我相信,绝大部分国内的AI从业人员
当他需要在互联网上搜索专业信息时
他首先会使用谷歌搜索、像arxiv这样的专业论文网站
或者是上YouTube
我很难想象他会从百度上面快速找到自己所需的资料
虽然
OpenAI用来训练大模型的中文数据
同样来源于中国互联网平台
但是它额外做了很多工作来提升数据质量
这不是普通的数据标注工作能完成的
而是需要专业团队对数据进行清洗、整理
有AI创业者曾表示
在中国很难找到相对标准化的数据服务商
大多是定制化服务
但是定制服务又很贵
这就和是否要大规模投资算力的逻辑有些类似
这笔投入对于很多公司
尤其是创业公司来说
看起来并不划算
如果大规模投入
一旦最后的模型效果不理想
同样是“打水漂”,
还不如用开源数据训练
直接开发布会
此外
中国市场缺乏有效的数据保护手段
有一位大厂的AI负责人说
在中国,你能拿到的数据
别人也能拿到
如果你花很多钱去做高质量数据
别人可以用很低的成本拿到
反过来也一样
相比于算力
如果中国的大模型产业想发展
数据可能是个更加绕不过去的槛
国外在这个领域能诞生像scale
ai这样的独角兽企业,但是在中国
数据加工、清洗的工作通常被认可度较低
创业公司很难在获得高质量数据和低成本投入之间达到平衡
因此模型调优
往往成了一件可望而不可及的事情
也就不足奇怪了
第四,资本的问题
其实上面的这三个问题
背后都指向一个共同的方向
那就是资本短视
尽管OpenAI已经蹚出一条明确的道路
对于绝大部分公司来说
想从零开始做出成熟的大模型
需要耗费的成本和时间并不会短很多
对于大部分投资人来说
每笔投资的目的很明确
退出、赚钱
OpenAI火了,估值一路攀升
未来还会继续增长
2023年4月,OpenAI估值约280亿美元
到了现在
OpenAI最新一轮估值已经达到1000亿美元
这在投资人眼里是一个非常确定的信号
如果以合适的价格投资中国大模型创业公司
也能在很短时间内做到估值成倍增长
可惜的是
中国投资人的耐心只有三五年
这是资本运作模式所决定的
投资人从LP手里募资
需要在一定年限内退出并拿到可观的收益
投资人退出的渠道包括项目并购、上市
或是在后续融资中把自己手里的股份卖给新投资方
早期的融资可以靠风口和讲故事
但是走到中后期甚至上市
就必须有一定规模的商业化能力
投资人们发现,拖得越久
项目上市或被并购的难度就越高
因为AI领域主要的商业模式是做B端的定制化项目
这条路径就决定了创业公司很难做出高增长的收入
投资人只能趁风口还在
迅速推动公司完成多轮融资
抬高估值
之后哪怕打折出售手里的股份
也是划算的
这也是为什么2023年大模型相关的发布会层出不穷
各种大模型榜单百花齐放且排名各不相同
这些都是有助于融资的“故事”。
类似的路径在几年前的AI产业已经出现过一次
那个阶段的代表公司是AI四小龙
2023年的大模型创业只是把过去三年走完的路在一年时间里加速完成
但是,话说回来
只有资本是短视的吗?
要知道
现在中国绝大部分专业投资机构
都已经是人民币基金
美元基金几乎已经全军覆没
而人民币基金大部分拿到的都是地方政府投资
募资的时候都会有行业限制、返投招商、预期回报等条款
在这种情况下
像OpenAI那样默默前期沉淀7-8年的情况
现今几乎已经不敢想象了
创业公司从拿到钱的那一刻开始
就要开始疲于向挣钱奔跑
终点在出发的那一刻其实已经决定了
第五,商业化,究竟谁才会为AI买单
2023年
中国大模型产业迅速从比拼大模型参数
进入到了比拼商业化的阶段
2024年1月的CES上
两位著名的AI科学家李飞飞和吴恩达均表示
接下来AI商业化会有明显发展
会深入到更多行业
目前看来
大模型的主要应用方向有两个
一是通过大模型技术为C端用户提供新的工具
比如付费版的GPT4、百度文心一言等等
但是C端付费短期内很难有大规模增长
对于大模型工具有刚需的人群相对较少
是更有希望的商业化方向的
是b端的服务
在中国的市场
做b端软件服务
其实一直是一个老大难的生意
大飞我就做了十几年
深知这里边的苦楚
跟美国市场不一样的是啊
中国市场最大的B端客户呢
其实是政府和国企
大模型作为一个先进的生产力工具
会有一个直接影响就是减少人力
而在政府和国企
减少人力呢
在很多的时候反而会变成一种阻力
如果退而求其次
我们去选择做中小b的客户
那么在2024年
恐怕也很难
有一位AI大模型的创业者曾经说过
他近期呢询问了不少的企业客户
得到的回应都是大模型能够做什么
能帮我裁员
还是能帮我赚钱
直到今天
即使是最先进的大模型
也依然存在着幻觉的问题
这个呢在c端的应用上呢
还可以忍受
但是在一些专业的b端场景上
有幻觉就意味着难以真正的落地
过去呢中国大量发展的是对比式的AI
比如说人脸识别
如果识别出现错误
还可以通过较低的人工辅助的手段来调整
但是
大模型很擅长一本正经的胡说八道
这种迷惑性呢
有时候是很难发掘和判断的
在2024年呢
AI大模型的发展呢会有几个相对确定的趋势
一个是融资热度会下滑
2023年出现的一家公司完成多轮数亿美元的融资呢
这种情况会明显的减少
大模型创业公司需要找到新的出路
第二个呢
是大模型的应用会持续的深入
但是这主要会集中在数字化程度很高
而且业务体量非常大的领域
大模型也许会在c端呢
大模型也会进一步的普及
不过对于中国的公司来说
不能只是依赖于c端用户的付费
c端应用场景中呢
必须要加入其他的变现模式啊
比如说广告
第三个呢
是国产的算力呢会得到进一步的重视
但是得到重视
并不意味着在短期内会有明显的进步
这是一个很漫长的过程
当然了国产算力能力提升的同时呢
也会出现更多趁机炒作造势圈钱的现象
最近迅速翻车的AI割韭菜第一人
李一舟以及鹤老师这些人呢
就是最好的例子
风口会刺激产业迅速扩张
泡沫也随之而升
机会越大泡沫就越大
只有撇开了泡沫
才能够看清产业发展的新机会
好了以上就是这篇文章的核心内容
其实大飞
我觉得还有一点问题没有提出
那就是人才的问题
但这个问题背后呢
是更为深远的教育
社会体制等等更大的话题
正如84年著名的钱学森之问一样
为什么我们的学校总是培养不出杰出的人才呢
我觉得放到现在呢依然没有过时
以后呢有机会我们会再展开聊
最后呢
对于那些总是幻想着遥遥领先
总是无端给我扣帽子的键盘侠呢
我也找了个嘴替
感谢小崔老师
好了本期视频内容就到这里
感谢大家观看
我们下期再见
5.0 / 5 (0 votes)
Microsoft's New PHI-3 AI Turns Your iPhone Into an AI Superpower! (Game Changer!)
【人工智能】Google大神Jeff Dean最新演讲 | 机器学习令人兴奋的趋势 | 计算的十年飞跃 | 神经网络 | 语言模型十五年发展 | Gemini | ImageNet | AlexNet
【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论
Simple Introduction to Large Language Models (LLMs)
How big is AI's carbon footprint? | BBC News
In conversation | Geoffrey Hinton and Joel Hellermark