找回密码
 立即注册
查看: 632|回复: 1

花了一个下午,我把文心一言玩坏了

[复制链接]

1

主题

0

回帖

10

积分

新手上路

积分
10
发表于 2023-7-26 13:18:35 | 显示全部楼层 |阅读模式
在等待了一个多月后,百度的文心一言终于正式发布,只是对于百度来说整个发布会过程多少有点“煎熬”,现场没有进行实机测试,而是用一段视频来展示文心一言的功能。


百度似乎对文心一言的表示有些忐忑,甚至从李彦宏的演讲过程来看,这位中国互联网的传奇人物,竟然有点紧张。对于百度来说,文心一言的重要性不言而喻,甚至有人将其看做是中国互联网对抗ChatGPT的独一但愿,而在过去的一个月里,已经有众多企业颁布发表与文心一言合作,进军未来的人工智能行业。

氛围衬托到这个程度,文心一言的具体表示将会直接影响投资者以及用户对百度的信心。




图源:文心一言发布会

果不其然,从发布会上用视频代替实机演示的时间点开始,百度的股价就开始暴跌,仅10分钟的跌幅就达到10%,240亿元的市值就此蒸发,换算一下,每过一秒百度就损掉四千万元市值。


不外,就像过去很多大企业在发布新品时的遭遇一样,百度的股价同样坐上了“过山车”,16日暴跌,17号暴涨,百度的股价甚至高于16号的最高值。

百度的市值忽起忽落,不知道李彦宏的表情是否也一样跟着上下波动。不外,至少在发布会现场,李彦宏也承认,现如今的文心一言还有很多不完美的处所,但是未来将会变得更好,用一句网友熟悉的话来形容:未来可期。

文心一言的表示到底如何?

文心一言,会画画?


在正式发布前,百度就已经对外宣传文心一言除了可以提供类似于ChatGPT的对话问答功能外,还撑持生成图片、视频等功能。不外在测试中,内测版的文心一言似乎并不能提供视频生成功能,而是直接生成了一段文字。





虽然答非所问,但是从文字描述来看,对应的视频画面倒也是符合我的要求。


对此,李彦宏其实也给出了解释,视频功能未上线主要是因为对资源的消耗过大,考虑到整体用户体验所以在内测版中没有推出。

视频功能不行,那么绘画呢?

我测验考试用分歧的描述来让文心一言生成分歧的照片和画作,不得不说成果确实出乎我的预料。

这是生成的第一张照片,草原、太阳,基本上符合我的要求,只是太阳似乎少了一个。





以毕加索的风格生成一幅油画呢?





我想文心一言恐怕对毕加索风格有“亿”点误解。

尝尝梵高风格?





居然比毕加索的好多了,文心一言难道是个梵高粉丝?

再来看看日系风格。






板屋里变成板屋外,远方还有个雨伞头怪人,虽然意境上是符合描述,但是BUG也不少。

再来尝尝科幻风格的,比如机甲大战怪兽。






看着挺不错的,但是怪兽呢?





拿刀兵的男人、异形都没有,只有一片农田。

在测验考试用不竭的话术来生成照片后,可以看出文心一言的绘画功能处于一个不不变的状态,即使是类似的描述,也有可能因为描述内容而呈现分歧极大的成果,可以是大致符合的,也可以是背道而驰的。

至少从测试成果来看,虽然文心一言的绘画照片生成速度和质量都很不错,但是在对用户语义和内容的理解上,显然是存在必然的问题,后续还有着很大的优化空间。

对话文心一言


对比绘画功能,对话式问答或许才是大大都人需要的功能,百度或许是把更多的精力用在对话功能的优化上了?那么就让我们看看,文心一言在对话式问答上的表示如何。

我首先测验考试着让文心一言评价一下2023年的春节档电影《流浪地球2》。






单看评价内容确实可圈可点,但是注意看第一行答复,“该片于2020年春节期间上映”,《流浪地球》是2019年的春节档电影,《流浪地球2》则是2023年的春节档,不管是1还是2显然都与2020年搭不上边,逻辑上的错误使得这个答复的评分大打折扣。

如果我们指出回答的错误会怎样呢?






得,直接变成未上映了。

换一种方式提问会怎样?





我们得到了一个前后矛盾的回答。

实话说,就此刻的表示来看,文心一言即使在常识性的问答上都有不少的错误,甚至会在一个回答中给出完全相反的不雅概念。

出格是涉及到具体时间的问题回答上,文心一言似乎有严重的BUG。


再来尝尝脑筋急转弯。





回答不出所料。

有意思的是,在我指出回答中存在的问题后,文心一言居然圆回来了。





脑筋急转弯还是有点难渡过高,让我们尝尝普通的提问。





终于回答正确了,不容易啊。

再来测试一下其他应用场景。





咋看之下,这个回答是没有问题的,只不外,若是懂行的人看到这份回答, 恐怕会不由得笑出声。比如,锐龙9 6900HX确实是一颗高性能措置器,而RX 5800XM则是一个不存在的产物,即使有也是AMD的显卡产物而非措置器。

再来看显卡保举,RTX 2060是正确的,但是Intel iGPU就多少让人摸不着头脑了,Intel本身估计都不知道还有这样的东西,下面的内存、硬盘两项回答上同样有不少问题。

让我们换个范围尝尝。





看来在生活范围的问答中,文心一言的准确度要高很多。

换个方式问,同样回答正确。





再来上点难度。






虽然去两遍长城有点让人摸不着头脑,但是从打算来看,并没有太大的问题,完全是一个可实现的简略旅游打算。

那么能否生成一个详细一点的旅游打算呢?





可以说,如果你想来一趟短暂的广州旅行,但是却不知道去哪里,按照这份攻略来走基本上不会犯错,文心一言在生活问答方面的表示远远超出了我的预料。


虽然在涉及到文艺作品、数码等范围的问答存在许多问题,但是在使用率最高的生活问答中,文心一言的表示已然合格,结合手机端的APP定位和用户人像,可以提供更准确、详细的建议。

至少在旅游娱乐方面,文心一言已经展示出很大的潜力。

文心一言,可以成为出产力东西吗?


在此之前,我们聊到ChatGPT,除了惊叹于强大的对话式问答功能,其在出产力方面的表示也让许多人发生了危机感,甚至有声音认为,ChatGPT将会代替许多工作,导致掉业危机。


那么,文心一言作为同类型的人工智能产物,在出产力方面的表示又如何呢?

首先来一篇简单的广州风土人情介绍文章。





额,仿佛被我玩坏了。





在删去字数要求后,文心一言给出了正常的回答。

换个条件再尝尝。





还是正常的。

让我们继续测试。





额,看样子“500字”似乎是文心一言的死穴,随后我对500字进行了一些微调,但是给出的回答都是正常的,恐怕这里存在一个未知的BUG,有待后续百度的工程师进行修复。

抛开不测触发的BUG不谈,文心一言确实可以生成简单的案牍,可以为使用者提供一个基本的内容框架,只需要进行内容填充就可以成为一篇简单直白的介绍文。当然要求不高的话,直接复制粘贴使用也是可以的,在出产力方面,文心一言的表示并不如生活范围的表示突出,甚至可以说有些稀疏泛泛。




图源:文心一言发布会

不外,考虑到目前文心一言还是初始内测版本,后续的优化空间还是很大的。综合体验下来,文心一言给我的感到感染既有惊喜也有“惊吓”,虽然在一些专业性质较强的范围上,文心一言有着不少的问题,但是在一些重点优化的范围,如生活娱乐,可以看到文心一言的回答已经有了不错的表示。

在生活娱乐范围表示出来的潜力,或许就是百度在发布文心一言后,第二天股价暴涨的原因,虽然在出产力等方面的表示不如人意,但是却已经表示出了惊人的潜力。

对于文心一言的未来,个人是十分看好的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

0

积分

新手上路

积分
0
发表于 2023-7-26 13:19:04 | 显示全部楼层
文心一言在不需要逻辑和智能的情况下还行,一旦涉及到对智能、理解要求高一点的问题,立马就变成智障了,按我的使用情况总结,文心一言就是一个自动一点的百度搜索加机械的字面理解,确实如部分网友所言,堪称AI届的马保国,要想成为武林高手,必须要重新投胎做人。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 19:25 , Processed in 0.055095 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表