谷歌上线AI新功能：可提取图像音频文字等

转载：https://ai.zol.com.cn/896/8963065.html

2024-08-31 11:40:21·[??中关村在线原创??]·作者：拿铁不加冰

8月31日，谷歌在其官方博文中宣布，其旗下的Gemini AI平台现在支持更多类型的文件。用户可以在Google Drive或本地设备上上传各种类型文件到Gemini（gemini.google.com）。

根据谷歌的介绍，拥有Gemini Business、Enterprise、Education 或 Education Premium 许可证的 Google Workspace 用户，现在可以将电子表格、演示文稿、图像和音频文件上传到Gemini，并从中受益。具体来说：

在处理电子表格方面，Gemini AI 现在可以处理 CSV、XLSX 和 ODS等格式的电子表格，帮助用户进行数据分析、趋势跟踪，并从财务模型、销售报告等生成洞察力；

在处理演示文稿方面，用户可以上传 PPTX、PDF 和 KEY 等格式的演示文稿，让 Gemini AI 可以提取要点、总结内容并识别图表和图像等视觉元素；

对于图像而言，Gemini AI 现在可以分析 JPEG、PNG 和 GIF 等格式的图像，并从中提取文本、识别对象并为视觉内容提供上下文；

而在音频方面，则是能够转录语音、识别发言人以及总结访谈、播客和讲座中的要点；

最后，在视频方面的支持则更加强大：不仅可以处理 MP4、MOV 和 AVI 等格式的视频文件，而且还能从演示文稿、纪录片和培训视频中提取脚本、识别场景并总结关键事件。

值得一提的是，Gemini 可以根据用户输入的提示词，更有针对性地分析用户上传文件，并给出写作和文档组织方面的建议。这将帮助用户提高理解能力、研究能力以及写作能力。

本文属于原创文章，如若转载，请注明来源：谷歌上线AI新功能：可提取图像音频文字等https://ai.zol.com.cn/896/8963065.html