Gemini 2.0 原生多模态模型炸裂功能初体验啊!它在benchmarks上有多炸裂我这就不说了,这里是迫不及待的想和大家分享它的几个炸裂功能。首先,我们进入到谷歌ai studio上进行gemini 2.0的访问,免费的credits足够我们用的了。先试下第一个功能实时语音,
Hi Gemini, how are you,
(Hi,I am doing great , thanks for asking, how can I help you today)
can you speak faster please, (sure , …..), can you speak in a way that you are so quiet and whispering?
(回答: ….)
牛逼吧?
第二个功能,视频对话。
can you let me know what i am holding now, and count number of items。
(回答:。。。。)
第三个功能,屏幕分享。
what do you see in my screen,
( i can se…),
ok , what do you see now? and what’s the model i am using?
(回答:。。。)
第四个功能,空间理解,它能分割图片里面的物体,可以圈定这些识别出来的对象并给出他们的名字,也可以用3D的方式圈定
第五个功能,视频分析,我们可以上传一个视频,然后给你解析这个视频的内容并让你和视频进行对话,你也可以生成关键时间线总结等,
第六个功能,地图探索,接入的是google map的api,比如告诉它我想去一个寒冷的地方,然后它就帮我定位到俄罗斯去了
好,以上就是今天要跟大家分享的Gemini 2.0的炸裂功能,其实还有很多牛逼功能没有时间跟大家一个个细说,比如图片生成和图片对话式编辑,这里的图片生成功能是原生的,也就是说不是像马斯克的grok那样接入的是第三方的Flux模型来实现的,这也是为什么Gemini 的多模态叫做原生多模态的原因
好,今天就先到这,喜欢的赶紧玩起来吧!