谷歌重磅宣告Gemini 15 Pro能自动写影评理解视频

除了能天生创意文本、代码之外，Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结，并且支持100万tokens高下文。

目前，可以在Google AI Studio开拓平台中免费试用Gemini 1.5 Pro，支持中文进行提示。

此外，谷歌还对Gemini API进行了性能优化，包括系统指令、JSON模式以及函数调用优化，可显著提升模型的稳定性和输出能力。

视频理解展示

「AIGC开放社区」通过Google AI Studio开拓平台第一韶光体验了一下最新的Gemini 1.5 Pro的多模态理解能力。
利用方法非常大略便捷，以下是教程示例。

1）登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro，以及上方的Video功能。

2）点击Video后，选择Upload上传视频。

3）由于模型对上传视频的解析速度过慢，以是，这里直策应用了谷歌内置的视频示例。
须要把稳的是，上传视频不要超过100万tokens。

4）我们利用内置视频示例，然后用中文提问：“先容一下这部影片讲述了哪些内容。
”

5）Gemini 1.5 Pro正在解析，常日只须要几十秒就能完成。

结果已经出来了，这是一部由BusterKeaton 于 1924 年主演并导演的电影《福尔摩斯二世》。

6）我们连续发问，“你能用这个视频写一段600字的影评吗？”大概几十秒后，Gemini 1.5 Pro便天生了影评。

虽然天生的内容无法与顶级影评人的作品媲美。
但整体的文章架构、阐述方法以及词汇的准确度是超过很多小白、中级影评人的水平。
只须要在这个根本之上进行稍加修正，便是一篇不错的内容。

值得一提的是，用户可以一次性上传多个视频一起解读，这对付视频媒体行业来说很有帮助，可以快速理解长视频内容节省韶光。

音频理解展示

我们再试试音频，基本操作与视频差不多。
这里我们上传一份英文阅读ESL Podcast的课程。

然后上传MP3格式文件

2）音频比视频解析快了很多很多，这里我们上传的音频有大约12万tokens。

3）开始发问，“总结一下这个音频的内容。
”

4）Gemini 1.5 Pro已经精准解读出来了，这个音频是 ESL Podcast 系列课程“Jeff 的一天”的第一课，旨在帮助学习者节制日常英语词汇。

比较意外的是，Gemini 1.5 Pro还把全体可成的构造、故事内容和学习目标全部都解读了出来，看来Gemini 1.5 Pro还是更懂英文数据内容。

Gemini 1.5 Pro的音频理解，同样支持多个文件一起解读。

Gemini API改进

为了帮助开拓职员更好地掌握Gemini模型，谷歌对API进行了三个优化。

系统指令：目前可以在Google AI Studio 和 Gemini API 中利用系统指令功能，可辅导模型的相应输出。
能让用户根据其特定需求和用例掌握模型的行为。

在设置系统指令时，用户须要为模型供应额外的高下文来理解任务、供应自定义程度更高的相应，并在用户与模型的全体互动过程中遵照特定准则。

而开拓者通过系统指令能定义角色、格式、目标和规则，以勾引模型在特定用例中的各种行为。

JSON模式：现在Gemini API 供应了一个配置参数，用于要求 JSON 格式的相应。
可以帮助开拓者从文本或图像中提取构造化数据。

函数调用优化：开拓者可以利用自定义函数并将其供应给AI模型，但模型不会直接调用这些函数，而是天生指定函数名称和建议的参数的构造化数据输出。

该输出支持调用外部 API，然后天生的 API 输出可以重新合并到模型中，从而帮助开拓者实现更全面的查询相应。

目前，Gemini 1.5 Pro已经全面开放利用了，有兴趣的小伙伴赶紧去试试吧。

本文素材来源谷歌官网，如有侵权请联系删除

END

每期AI知识网