查看: 2261|回复: 1

不只是100万上下文，GOOGLEGemini 1.5超强功能展示 [复制链接]

gythy1978

军衔等级：

少将

注册：2015-1-28 点赞数

80

发表于 2024-2-20 11:20:40 |显示全部楼层

GOOGLE发布Gemini 1.5那天遭遇了滑铁卢，被OpenAI的Sora砸了场子。但Gemini 1.5成为首个支撑100万tokens上下文的基础大模型。

这意味着，Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码，并衍生出更多的数据分析玩法。

下面「AIGC开放社区」将为大家展示Gemini 1.5，那些超强的数据分析功能。

技术报告地址：https://goo.gle/GeminiV1-5

超复杂文本分析

Gemini 1.5能对给定提示中的大量内容进行无缝分析、分类和总结。例如，给出阿波罗11 号登月任务的402页记录，它就能对整个文件中的对话、事件和细节进行推理，并找出那些奇特的细节

也能查找、理解并说明PDF中的特定内容。例如，从 DeepMind 的 Gemini 1.5 Pro 论文中提取“表 8”并说明该表的含义。

跨模式理解和推理

Gemini 1.5可以以针对不同的模式（包括视频）实行超复杂的理解和推理任务。

例如，当给出一部 44 分钟的巴斯特-基顿（Buster Keaton）无声影片时，该模型能准确分析各种情节点和事件，甚至能推理出影片中容易被忽略的小细节。

也能分辨视频是否由AI生成，例如，将Sora生成的猫咪视频上传至Gemini 1.5，进行辨别和解读。

解读复杂代码

Gemini 1.5可以一次性解读大约100,000行代码，对其进行修改、注释、优化等。例如，用文字询问，动画Little Tokyo的demo是由什么控制？

Gemini 1.5不仅找到了这个demo，说明了动画嵌入在gLTF模型中，还能根据提示继续撰写功能代码。

Gemini 1.5模型简单先容

GOOGLE表示，Gemini 1.5是基于Transformer和MoE架构开发而成。虽然传统的Transformer作为一个大型神经网络运行，但MoE模型则被划分为较小的“专家”神经网络。

根据给定的输入内容类型，MoE模型可以有选择性地仅激活其神经网络中最相关的专家路径，极大地增强了模型的效率。

与上代1.0相比，Gemini 1.5在数学、科学、推理、多语言、视频理解上实现大幅度提升，并达到Ultra1.0的强度。

测试数据显示，在文本、代码、图像、音频和视频评估的综合测试时，Gemini 1.5 在87% 用于开发大语言模型的基准上都优于1.0 Pro。与Ultra 1.0在相同基准上的表现相比，Gemini 1.5的表现大致相同。

即使Gemini 1.5的上下文量增加，仍然保持高水平的性能。在“大海捞针”（NIAH）评估中，一个包含特定事实或声明的小片段文本故意放置在一长段文本中，Gemini 1.5在长达100万标记的数据块中，99%的时间内找到了嵌入的文本。

举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-7-3 11:30 , Processed in 0.111901 second(s), 18 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册