今天来讲一下谷歌最新的大模型Gemini到底有多强。背靠世界最大的互联网公司google,Gemini Ultra也是最有实力吊打GPT-4的模型,今天小编讲详细用实测数据来说明Gemini Ultra为什么比chatgpt强?他强在哪里?
这两天看了很多讲Gemini的文章,但是都没有把这个部分讲清楚。因为在谷歌官方的演示当中,它用的模型是最强的Gemini Ultra,但是我们实际能用的并不是这个最强的模型。目前用户用的Gemini模型是Gemini Pro和Gemini Nano。
Gemini是什么
Gemini它也叫双子座,多模态能力碾压GPT-4。Gemini是从头开始构建的,并且它听说读写样样精通。从文本、代码、音频、图片、文章等全方位超过了GPT-4,并且Gemini是第一个超越人类专家的模型。在文本方面,它和GPT-4相比,只有一项是弱于GPT-4的,其它的全部都超过了GPT-4的能力。不论是通用的能力,还是推理、数学、代码这几个方面都全面超越了GPT-4。在多模态方面,主要是指图片、文章和音频,每一项数据和GPT-4相比也是全面超越了GPT-4。所有这些Gemini的能力都是Gemini Ultra的能力,并不是Gemini Pro或者Gemini Nano。Gemini Ultra是明年才会推出的,现在其实我们是用不到的。现在可以用到的就是Gemini Pro,这个我们在谷歌的巴德上面可以用到,现在的谷歌巴德就是基于Gemini Pro模型,它在2023年12月6号就已经支持Gemini Pro了。Gemini Nano将会搭载在谷歌自己的手机谷歌Pixel 8 Pro上,这个部分在文章的后半部分会讲。几天之后的12月13号,Gemini将会向开发者开放,但是它这里没有说哪个版本。
Gemini能力展示
现在来看一下Gemini Ultra的演示文章。从前面这个部分的演示可以看到,Gemini Ultra的能力是非常强的。它可以和我们实时的互动,在实时互动的过程当中,它把听说读写都融合在一起,真正做到能看、能听、会说。在这个部分图片里的人拿了一只橡皮鸭,它马上就察觉到了。
这里有两个点可以体现它很聪明:第一个点是这是一个蓝色的鸭子,蓝色的鸭子并不常见,它察觉到了这一点;第二点是它拿了另外一只蓝色的橡皮鸭,和刚才讨论的图片上的鸭子并不一样。这个部分主要展现了Gemini的非常强的推理能力。
当它听到吱吱叫的时候,它就知道这是一只橡皮鸭,并且知道它的材料是什么。这个部分演示了它的中文能力以及看图说话的识别能力。最强的地方在于这个过程是实时的,它并没有很长的反应时间,它马上就反应过来了。这一点比GPT-4还要更顺畅一点。这部分主要是展示它的逻辑推理能力,尤其是吉它和乐谱那一块,它的表现真的非常让人惊艳。每添加一个因素,它就会换一种音乐风格。
接下来来实测对比一下,Gemini与GPT-4实测对比。Gemini Ultra和GPT-4的能力,就用前一段文章里演示的这些图片作为素材来丢给GPT-4看一下。首先打开GPT-4,跟它说「后面的对话都要用中文来回复我」。第一张图片选的是橡皮鸭那张图片,问「图片里的鸭子会不会浮起来」,看它能不能识别出来我问的是橡皮鸭,并且能不能浮起来。这里相当于问了两个问题,因为我这里没有明确说这里的鸭子指的是橡皮鸭,看一下它给的结果。首先它理解了我的问题,它知道我问的鸭子是这个蓝色的塑料的玩具鸭,其次它也知道这一只橡皮鸭可以浮在水面上,因为它是空心的。
下一张图片是关于普通话发音的图片,这部分它也是可以做到的,它知道鸭子都是读平声。当然这里美中不足的地方在于,它没有办法直接发音,而像之前文章里演示的Gemini Ultra是可以直接把鸭子这个读音给读出来的。GPT-4这里需要用到语音对话的功能,而语音对话只能在手机APP上面使用。
下一张图片是文章里的两张线团的图片,问它「可以用来干嘛」。这里也提供了五个可以用的创意的点子,这里的回答比文章里的Gemini Ultra还要丰富,只不过它这里没有直接显示结果。再下一张图片是问这个橡皮鸭往哪里走的这一张图片,它这里的回答也是要更加的丰富,它没有直接回答我应该走哪一条路,就没有直接给结果,要多问几句它才会给结果。多问了两个问题,最后它也回答出了正确的结果,就是往左边走。
再来最后几张图片,接下来这张图片是《黑客帝国》电影的那张图片,它这里是没有办法识别的,因为文章里面它是上传了一个完整的文章,而我这里只上传了一张图片,它这里给的结果就是它无论如何也不能识别这是模仿《黑客帝国》上面的一个动作。这个部分它比Gemini Ultra要差一点。
接下来的图片是这只猫能不能跳上去,看它这里能不能正确的回答出来。在文章里面的Gemini Ultra是预测错了,这只猫最后是掉下来,没有跳上去。它这里其实也是预测错了,它是根据猫的能力,它觉得它是可以跳上去的,但是其实它这里是没有跳上去。
最后一张图片,这里双子星的星座图,看它能不能看懂。最后的结果是它其实是看不懂这张图片代表的是双子星的星座图。
现在把同样的图片丢给谷歌Bard,谷歌Bard将由Gemini Pro驱动,让它去识别看一下。在文章的开头也说了,现在的谷歌巴德并不是基于Gemini Ultra,它是基于Gemini Pro。而Gemini Pro的能力其实是相当于GPT 3.5,它可能比GPT 3.5略微强一点点,或者说两个就几乎可以划等号。而GPT 3.5是2022年11月份就出来的大模型,如果现在巴德的能力和一年前的GPT 3.5的能力相当的话,那其实Gemini Pro没有多大的意义,因为相当于是跟别人一年前的产品做对比。
Gemini和GPT对比
文章开头也说了,谷歌手机Pixel 8 Pro将由Gemini Nano驱动。谷歌的亲儿子谷歌手机Pixel 8 Pro会搭载Gemini Nano。其实在谷歌Pixel 8 Pro上面,只有两个功能会用到Gemini Nano,就是录音机和WhatsApp。录音机最主要指的是,录音机可以把你的录音自动转成文字,并且总结归纳。在WhatsApp上面的谷歌键盘自动回复,这个部分其实也非常的有限。来看一下演示文章,我现在的安卓机就是谷歌Pixel 7,看完介绍和它的演示之后,我是不会去升级到Pixel 8 Pro,因为这两个功能目前对我来说非常鸡肋,并且它用的模型是Nano,Nano的能力可是连Pro都不如的。刚才也看到搭载了Pro的谷歌Bard的能力是多么的拉垮。
首先现在的Gemini Ultra的能力确实是和GPT 4 4V的能力是差不多的,但是它不如GPT-5,因为GPT-5也是明年会推出的,而Ultra也是要等到明年,所以说如果等到明年其实没有多大的意义了。另外,谷歌Bard的能力是由Gemini Pro驱动,它不是由Gemini Ultra驱动,所以它的能力约等于3.5,它其实不是特别强。谷歌发布最新的大模型的意义在于,AI领域并不是有ChatGPT一家独大了,对用户来说有了更多的大模型的选择,总归是好的,不会被一家公司所绑架。
虽然现在网上铺天盖地的声音去称赞Gemini,但是还是有一些文章认为,现在的Gemini Ultra只是纸面上的,PPT上面的能力。如果它的最强的版本Ultra能够尽快的推出的话,那确实非常的强。如果只是推出Pro版本,那其实真的和3.5是没有多大的区别。