首页  >  资讯  >  文章
2024-04-10 09:44

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。

目前,可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro,支持中文进行提示。

图片

此外,谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,可显著提升模型的稳定性和输出能力。

视频理解展示

「AIGC开放社区」通过Google AI Studio开发平台第一时间体验了一下最新的Gemini 1.5 Pro的多模态理解能力。使用方法非常简单便捷,以下是教程示例。

1)登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Video功能。

图片

2)点击Video后,选择Upload上传视频。

图片

3)由于模型对上传视频的解析速度过慢,所以,这里直接使用了谷歌内置的视频示例。需要注意的是,上传视频不要超过100万tokens。

图片

4)我们使用内置视频示例,然后用中文提问:“介绍一下这部影片讲述了哪些内容。”

图片

5)Gemini 1.5 Pro正在解析,通常只需要几十秒就能完成。

图片

结果已经出来了,这是一部由BusterKeaton 于 1924 年主演并导演的电影《福尔摩斯二世》。

图片

6)我们继续发问,“你能用这个视频写一段600字的影评吗?”大概几十秒后,Gemini 1.5 Pro便生成了影评。

图片

图片

虽然生成的内容无法与顶级影评人的作品媲美。但整体的文章架构、叙述方法以及词汇的准确度是超过很多小白、中级影评人的水平。只需要在这个基础之上进行稍加修改,就是一篇不错的内容。

值得一提的是,用户可以一次性上传多个视频一起解读,这对于视频媒体行业来说很有帮助,可以快速理解长视频内容节省时间。

音频理解展示

我们再试试音频,基本操作与视频差不多。这里我们上传一份英文阅读ESL Podcast的课程。

图片

然后上传MP3格式文件

图片

2)音频比视频解析快了很多很多,这里我们上传的音频有大约12万tokens。

图片

3)开始发问,“总结一下这个音频的内容。”

图片

4)Gemini 1.5 Pro已经精准解读出来了,这个音频是 ESL Podcast 系列课程“Jeff 的一天”的第一课,旨在帮助学习者掌握日常英语词汇。

图片

比较意外的是,Gemini 1.5 Pro还把整个可成的结构、故事内容和学习目标全部都解读了出来,看来Gemini 1.5 Pro还是更懂英文数据内容。

图片

Gemini 1.5 Pro的音频理解,同样支持多个文件一起解读。

Gemini API改进

为了帮助开发人员更好地控制Gemini模型,谷歌对API进行了三个优化。

系统指令:目前可以在Google AI Studio 和 Gemini API 中使用系统指令功能,可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。

在设置系统指令时,用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应,并在用户与模型的整个互动过程中遵循特定准则。

而开发者通过系统指令能定义角色、格式、目标和规则,以引导模型在特定用例中的各种行为。

图片

JSON模式:现在Gemini API 提供了一个配置参数,用于请求 JSON 格式的响应。可以帮助开发者从文本或图像中提取结构化数据。

函数调用优化:开发者可以使用自定义函数并将其提供给AI模型,但模型不会直接调用这些函数,而是生成指定函数名称和建议的参数的结构化数据输出。

该输出支持调用外部 API,然后生成的 API 输出可以重新合并到模型中,从而帮助开发者实现更全面的查询响应。

目前,Gemini 1.5 Pro已经全面开放使用了,有兴趣的小伙伴赶紧去试试吧。

4
查看相关话题: #谷歌 #Gemini #gemini 1.5pro #API

相关文章