前两个月国产类ChatGPT大模型如雨后春笋,为何比来都没声音了?
比如百度的文心一言,阿里的通义千问,讯飞的星火 政策原因。新修订的《网络安全法》把违规内容的处罚标准从50万提升至5000万,简单地说如果发布一条“违法”信息,处罚5000万也合情合理。这个东西国内做出来,放到国外跟chatgpt比没有竞争力。如果放国内,除了百度360讯飞这几家,其它公司基于监管原因又无法运营。
gpt本质是一个搜索引擎,结果出来的比搜索引擎还完善,如百度、好搜、搜狗搜索引擎平时都屏蔽了海量内容,如果出个类似GPT的必然也要屏蔽内容,可以说屏蔽内容比研发重要得多,想上线必须做到让监管单位确认确实不会有非法内容、以及真的屏蔽到位,但这是不可能完成的任务。
除非每条内容都人工审核,先问问题》人工审核》显示出来,没有容错率,万一有个人问个问题截图发到别的地方,出现一条罚5000万谁受得了。
中文语料缺失严重,几年前网络清查以及严格监管,大量网页被删除、大量网站关闭,里面有很多有价值的资料随之消失。用残存的数据来训练前需要再过滤一遍,录入后还要审核,出来的质量可想而知。
百度的文心一言目前属于基本没法用状态,只能问一些很无聊的问题,如“树上骑个猴,地上7个猴,一共有几只猴”,真的稍微发问,很多词一问就不显示,就这东西就没竞争力了。
补充一个图片类AI,目前国内的公司,图片AI不敢直接生成,先预生成几十万图片和标签后审核,用户要什么就直接调用审核过得,防止出现不可控的局面,如果用户输入一个新的词,图片要先审核后显示,相当于伪图片AI。只能这样啦,监管原因。 谢邀。
国内国外大模型的本质区别:
[*]国内先搞一波小参数的大模型,PR一定要cover机器之心、新智元、量子位,然后宣城自己的130b模型超越了gpt4,并在自己的榜上发布测评结果,成功超越gpt4。最后一堆商业公司来买130b的模型,这就算是创业成功了,毕竟一套价格不菲,几千万。
[*]国外套路可能稍微简单一点,就是想复刻stablediffusion的火热,奈何LLM动辄几十GB的模型还是比较难玩的动,加上没有美女ai图这样的流量密码不太好推广,最终就只剩下openai和inflection以及claude等闭源商业公司这样的寡头。顺带没事喷一喷国内的研究者总是发布达到chatgpt4 106%能力的工作,人家一更换测评数据集就泯然众人矣了。
以上就是当下的一个大模型国际全貌 总结成一句话就是:除了GPT-3.5/4之外的大语言模型(LLM),智能都不够高,离落地还有一定的距离。好好炼丹才是王道,智能上不去,宣传再多也不会有人买账。
和很多业务团队一样,过去的几个月我们一直在尝试LLM的B端落地。但目前的进展并不理想。以下是一些前线战报:
闭源LLM的落地情况
目前闭源LLM里能真正商用的只有GPT-3.5/4,实测其他模型的表现都不太好。
使用闭源模型的最大问题是信息安全的挑战,很多企业都严格禁止把核心业务数据发给外部的LLM。
如果没有和OpenAI签署特殊的保密协定,你发给GPT的每一个token都有可能被用来训练下一代模型。试问谁敢乱发业务数据给GPT呢?
所以现在B端落地的都是企业的周边业务,比如简单的客户聊天机器人、总结一些email内容、爬个网站总结内容之类的助手类软件。
以上是我看到的现状。当然少数企业已经在和OpenAI进行深度合作,这些企业暂且不谈。
开源LLM的落地情况
我们基本把业界呼声比较高的开源LLM都测了个遍,过程就不细说了,只说一些结论:
1. 目前(2023-06-23) 所有的开源LLM智能都不够高,输出不稳定,落地难度很大,所以还需要各路炼丹师继续努力。
2. 很多模型只是宣传的好,实际上就是吞噬显存的人工智障,这类模型以Dolly-V2为代表,基本没有办法正常交流。
3. 一些模型在日常交流中表现良好,但放到垂直领域还是不太行,这类模型以Vicuna为代表。受限于token数量,现在业界的普遍玩法是LLM+垂直知识库,再使用一些稀奇古怪的咒语 (Prompts)来指导LLM完成任务。有点能力的团队都能把POC (Proof of Concept)做出来,但如果想放在复杂的生产环境中使用,预计会遇到很多很多问题。
4. 由于商业许可的限制,表现好的模型(比如Vicuna)大多不能商用,只能用来做实验,这也是制约落地的一个关键因素。
5. 在需要高度精密的业务场景下,无论是GPT-4还是其他模型,都暂时不可用,因为输出结果不可预测,精度无法保障。
6. 现阶段学会念咒(prompt engineering)很重要,好咒语可以让LLM的输出接近它的智能上限。不会念咒你很可能得到一些奇奇怪怪的输出。每个模型的喜好都不太一样,这和炼丹手法有关系,找到最适合模型的咒语,需要很多人力来反复试验。
7. 国产开源LLM还是挺能打的,比如ChatGML,在垂直领域的表现比Vicuna还要好。
8. 不要指望把整个垂直知识库塞到模型里做fine tune,这需要很高的成本和优秀的炼丹手法。作为业务团队,我们能做的只是让LLM学习一些我们提问的方式以及预期的回答格式。有时候光靠念咒不够,还是需要一些低成本的fine-tune。 很简单,美国方面没有及时开源。 既然还有人看, 那就再推一个, RWKV-LM:
BlinkDL/RWKV-LM: RWKV is an RNN with transformer-level LLM performance. It can be directly trained like a GPT (parallelizable). So it's combining the best of RNN and transformer - great performance, fast inference, saves VRAM, fast training, "infinite" ctx_len, and free sentence embedding. (github.com)这个暂时没有体验过, 放个视频出来, 有兴趣的自己了解一下:
ChatRWKV模型6G显存部署实战—凡人之躯, 比肩ChatGPT!!?_哔哩哔哩_bilibili另外发一个 一键包佛祖 的视频地址:
RWKV-Runner发布并开源,可商用的大语言模型,一键启动管理,2-32G显存适配,API兼容,一切前端皆可用_哔哩哔哩_bilibili据说, 要求很低 甚至...CPU...也能跑
而这个模型的开发者本人也在知乎:
PENG Bo<hr/>以下原答:
因为没噱头了, 媒体不关心了 ...
事实上除了大厂, 还有高校也在跟进这些...
比如清华的 ChatGLM-6B
它们团队甚至连模型都开源了, 虽然是6B(62亿)参数的小模型...
github.com体验了一下和以前的智能助手对比已经可以花式吊打了, 尽管小毛病还不少.
他们还有130B(1300亿)参数的大模型, 也开源了, 不过模型要申请才能体验, 但是一般的家用机器也带不起来, 因为介绍说 4块3090 跑起来也是可能的, 也就是说低于这个要求就不要想了.
THUDM/GLM-130B: GLM-130B: An Open Bilingual Pre-Trained Model (ICLR 2023) (github.com)而且 商用化也已经接入了.
ChatGLM科技部在中关村论坛上发布的《中国人工智能大模型地图研究报告》显示 ChatGLM-6B 位列大模型开源影响力第一名,千亿基座 GLM-130B、代码模型 CodeGeeX、文生视频模型 CogVideo、GLM 模型同时入围开源影响力前十
ChatGLM-6B 全球下载达到200万,数百垂直领域模型和国内外应用基于该模型开发
联想接入 ChatGLM-130B API 开发智能打印产品
中国民航信息网络公司基于接入 ChatGLM-130B API 开发航旅智能产品
清华研究生会基于 ChatGLM-130B 开发的【水木ChatGLM】上线,服务全校同学
360基于 ChatGLM-130B 联合研发千亿级大模型【360GLM】
值得买部署 ChatGLM-130B 私有化实例用于电商平台产品
美团私有化部署 ChatGLM-130B,联合研发【美团GLM】
ChatGLM-6B 开源30天内,全球下载量达到75万,GitHub 星标数达到1.7万
ChatGLM-6B 推出基于 P-Tuning-v2 的高效参数微调,最低只需7GB显存即可进行模型微调
ChatGLM-6B 登上 Hugging Face Trending 榜第一,持续12天
ChatGLM-6B 登上 GitHub Trending 榜第一
千亿对话模型 ChatGLM 开始内测,60亿参数 ChatGLM-6B 模型开源
竹间智能科技接入 ChatGLM-130B API 开发智能客服产品说到底, 这玩意儿对于对于普通用户接入来说不太容易挣钱, 哪怕你一个月收140块(20$)的会员费, 也不一定能回本, 所以这事儿就变得跟普通人关系不大了.
另外码农朋友可以体验一下 VSCode 的 CodeGeeX 插件, 基于ChatGLM... 代码提示插件对标 copilot
<hr/>20230614 更新, 根据信息相关度, 补充到了这里, 可能是什么值得买对于 ChatGLM 的应用. 不确定啊, 不确定啊, 只是觉得关联度挺高.
<hr/>看完了, 记得点赞啊喂...
页:
[1]