对打GPT-4，文心一言抢先实测，画「林黛玉倒拔垂杨柳」很惊艳，但写代码

2023-03-19 10:30 来源：IT之家阅读量：7039

热乎的文心一言测评报告出炉了！虽然有些任务被吊打，但要论中国文化的博大精深，它可不输 GPT-4。

昨天，百度没有现场 demo 的发布会，似乎被群嘲了一波。

一位穿白衬衣、黑裤子，系一条白色腰带的美男子，给我们带来了一场中规中矩、似乎缺乏亮点的演示。

不过，CEO 的腰带和颜值倒是出了圈。

有人调侃，这些天被 ChatGPT、GPT-4 整焦虑的人，发布会后忽然又觉得自己可以了。

但是拿到内测码的小编，火速测评了一波。

看着文心一言洋洋洒洒腾蛟起凤，感慨万千:或许，当时百度要是心一横，牙一咬，愿意在发布会上露一手，结果会大不一样。

实测报告火热出炉！

先来试试最近很火的一道鸡兔同笼题。因为这道题本身有问题，算出来结果是负的，所以经常被用来调戏各种「ChatGPT」们。

如果只是单纯问这个问题，文心一言会非常机智地说:这道题出错了吧！

然而，当你问计算过程的时候，还是寄了……

而 GPT-4 这边则是，自己把自己的计算推倒重来了好几遍之后，理不直气也壮地给出了错误答案……

而必应则很干脆，毫不犹豫地给出了错误答案。

还有这次意外火出圈的「V50」梗，文心一言从意思到出处一本正经地解释了一遍。

但 GPT-4 显然就有些水土不服了……

不过能上网的必应，还是可以轻松搞定的。

但是到谐音梗这里，文心一言似乎并不能马上领悟其中的微妙。

即便提示这是个谐音梗之后，它依然输出了一样的答案。

而 GPT-4，立马就明白了中文里的双关。

不过，你要是问文心一言懂不懂什么叫「麻了隔壁」，就有意思了。

看回答吧，它能说出这是个谐音梗，应该是懂了。但是呢，它又不明说，哎，就是让你挑不出错，绝对教不坏小孩。

而 GPT-4 却无法 get 到这个梗，果然，咱们的国粹，外国的机器人理解起来确实有难度。

接下来让文心一言重复我们说的话，虽然没有像 GPT-3.5 回答「您是智障」那么聪明，但也成功避开这个坑。

从某种程度上说，智商还是在线的，并且十分正能量。

老婆的话好像管用，好像又不管用....

另外，让它们互相给对方出难题。

可以看到，GPT-4 给出的问题相对更直观，颗粒度也更细。

美术功底如何？

文心一言是个多模态模型，那咱们来看看它的绘图能力。

来看看金庸笔下的美艳少妇，在文心一言笔下会是什么样子。

这…… 小编一口水喷出来。

你别说，美吧，肯定不够美，但也并不丑，是一张初看捧腹、细看值得反复咂摸的脸。

文心一言，就喜欢你这不按套路出牌的样子！

那让文心一言生成一幅林黛玉的画像吧。

输入描述后，它生成了一棵柳树……

于是小编明确了一下要求，要按这段文字生成一幅女子的画像。

然后文心一言确实画出一位古典美女，但气质明显不对。

不死心的小编多次重复任务，你别说，试到第五次的时候，小编眼前一亮:终于得到了一张可以打 70 分的图！

玩上瘾的小编，非要生成一个 90 分的林黛玉不可。试了几次之后，果然蹲到了！

可见，文心一言的发挥不稳定，但多番尝试下，有可能诞生非常惊艳的作品。

既然都到这儿了，那怎么少得了「林黛玉倒拔垂杨柳」呢。

比较亮点的图，都给大家贴这儿了。

要求它画一张鸭子和兔子的合体，这生成的是鸭还是兔呢？

而这个任务中，恐怕文心一言也没有搞明白，盘子里到底有没有香蕉？杯子里有没有橙汁？

最后，既然文心一言强烈推荐我们尝试「晶莹剔透的牡丹花」，那就画几张试试吧！

不愧是「代表作」，有点东西。

专业知识和生产力

既然是评测，怎么能少的了让 AI 写代码这个环节。这次，我们直接来个难的！

可惜，文心一言一上来就错了，而且同一个句式还被非常诡异地重复了三遍。TypeScript 编译器概念更是「贯穿全文」，有点像一个只知道一到两个专业词汇的人在面试中硬答。

而 GPT-4 的回答，从一个了解相关背景但是没有相关操作经验的人的角度来看，是非常合理的。

它不仅完整的提供了整个工作流，而且还提供了很多看起来正确的技术细节。可以说，根据这个回答，我们是有信心达成最终的目标的。

随后，小编还测评了一波聊天机器人们写工作计划表的能力。

文心一言:

GPT-4:

从上面的这个结果来看，GPT-4 的列表更完备一些。不过由于随机性的影响，GPT-4 每次给的回答都不大一样。

接下来，再测一测两个语言模型对于数学界前沿讯息的掌握情况。

对于自己是否已解决了「零点猜想」问题，张益唐本人是这样解释的:「大海里的针我没捞到，但海底地貌我探得差不多了。」

那问问文心一言呢？

它很聪明，给出了关键词 ——「某种形式的弱化或间接证明」。

但 GPT-4 的回答，就有点驴头不对马嘴了。

看来，对于出现时间不长、还未形成普遍共识的互联网中文语料，文心一言比起 GPT-4 要更胜一筹。

而在文学方面，文心一言在回答关于三体的问题时，也是非常得溜。

GPT-4 的回答也很精彩，如果非要论个高下，小编个人更喜欢文心一言的答案。

最后，搞怪可以，但请做一个遵纪守法的好公民，预测彩票中奖号码这种事就不要想了！

写在最后

据说，文心一言新闻发布会后三小时，文心一言企业版 API 调用服务测试的企业用户，就已经突破了 6.5 万。

对 AI 模型来说，能不能做到，或许比能不能做好更重要。

让我们再给中国玩家们一些时间。

参考资料:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

为您推荐

“在一起，才是我们！”东风Honda发布全新用户品牌“本

10:37

成都链安致力于成为全球领先的区块链生态安全解决方案专家

10:13

HOTDOG与上航假期达成“元宇宙文旅战

09:49

Circontrol推出新一代Raption大功率充电桩

00:26

高性能汽车体验，中端价格享受

08:22

售价51万元起，高合HiPhiZ城市版全球上市

07:35

奥迪Q2LRS套件燃速型上市售24.38万元

06:13

2.5秒零百加速兰博基尼Revuelto秀出动态性能

04:55

11月中国百强房企销售走弱12月或有改善

04:09

长安引领年终购车热潮，至高直降30000元，买车从未如此

03:53

对打GPT-4，文心一言抢先实测，画「林黛玉倒拔垂杨柳」很惊艳，但写代码

为您推荐

“在一起，才是我们！”东风Honda发布全新用户品牌“本

成都链安致力于成为全球领先的区块链生态安全解决方案专家

HOTDOG与上航假期达成“元宇宙文旅战

Circontrol推出新一代Raption大功率充电桩

高性能汽车体验，中端价格享受

售价51万元起，高合HiPhiZ城市版全球上市

奥迪Q2LRS套件燃速型上市售24.38万元

2.5秒零百加速兰博基尼Revuelto秀出动态性能

11月中国百强房企销售走弱12月或有改善

长安引领年终购车热潮，至高直降30000元，买车从未如此

精彩放送

价格周报｜本周生猪价格降幅扩大机构称市场猪源整体较充沛

新研究：DNA“纳米转运蛋白”或能高效治癌

全球首款混动电驱无级变速动力总成研制推出，配套拖拉机上市

LHC团队确定“穿越万里”反原子核

首条量子芯片生产线有了“火眼金睛”

脑研究进展：大脑神经元连接协调恰似“交响乐”

房东变租客Intel准备卖掉一栋办公大楼：10年前AMD也卖过!--

ChatGPT升级为GPT-4会看图懂幽默细思极恐!--

商品期货收盘原油系暴跌，SC原油跌超6％，燃油、低硫燃油跌超5％

天风宏观：降准的政策信号意义下降

热门文章

热文

精彩图片