谷歌DeepMind团队于5月27日宣布推出SignGemma,这是其迄今为止最强大的手语翻译模型,能够将手语转化为口语文本。该开源模型计划在今年晚些时候加入Gemma模型家族。SignGemma支持多语言功能,但目前主要针对美国手语(ASL)和英语进行了深度优化,开发者可以自由使用并改进它。
DeepMind希望通过这项技术帮助手语使用者克服沟通障碍,在工作、学习和社交中更加顺畅地参与。今年,DeepMind还推出了Gemma 3n模型,可以从音频、图像、视频及文本输入生成智能文本,助力开发者打造实时互动应用。
谷歌与佐治亚理工学院及Wild Dolphin Project合作,基于巴哈马大西洋斑点海豚的长期研究数据构建了DolphinGemma模型,用于分析并生成海豚声音。此外,MedGemma模型作为Gemma 3家族的新成员,专注于医疗AI领域,支持临床推理和医学影像分析,推动医疗与人工智能的融合创新。