微软 AI 设计应用全平台上线，阿里云开源两款新语音基座模型

时间：2024-08-03 阅读：187 评论：443

AI每周资讯

将分享

每周最新的行业资讯

最前沿的AI动态

快来看看上周AI行业

都发生了哪些大事

欢迎关注~

产品应用

腾讯智影小程序上线 AI 视频功能，限时免费一键生成风格化视频

腾讯智影小程序推出了AI视频功能，用户能一键生成日漫风格的风格化视频，此功能目前免费使用。该功能通过风格化处理提升视频美感、趣味性和传播力，支持10秒视频快速转化，并提供多样模板。智影自2023年3月上线，整合了AI创作能力，提供虚拟数字人、文本配音等智能创作工具。新功能的加入进一步丰富了用户的创作手段，提升了内容创作的效率和趣味性。

三星 One UI 6.1.1 引入“手稿到图像”等 AI 功能

三星在Galaxy Unpacked发布会上推出新手机及One UI 6.1.1更新，其中“手稿到图像”功能利用AI将手绘草图转化为精美图像，与背景完美融合。“人像工作室”则允许用户将照片转换成多种风格。这些AI功能旨在提升用户的创意体验，并需云端支持，确保图片无透明背景以生成高质量的3D头像。新功能预期将扩展至更多Galaxy设备。

蚂蚁集团推出EchoMimic，实现自动对口型视频技术

蚂蚁集团近日发布了开源的EchoMimic项目，该技术利用人工智能算法分析人像照片的面部特征和音频，生成同步口型的视频。该技术结合了面部标志点和音频特征，确保视频的稳定性与自然度，支持多语言和多风格，适用于包括歌唱在内的多种场景。这一创新为视频制作带来新可能，用户可轻松创建富有真实感的对口型视频，将推动多媒体内容创作领域的进一步发展。

百度推出全新AI社交应用“文小言”，开启数字化交友新体验

百度发布了首款基于文心大模型的AI数字人社交应用“文小言”。用户可以与仿真数字人进行实时互动，并建立情感连接。虽然功能与同类AI聊天产品相似，但“文小言”的仿真数字人提供了更真实的交互体验。尽管肢体动作尚不流畅，且不支持创建专属数字人，但每个AI数字人都拥有独特的聊天服务，旨在成为用户的知心伙伴。

百度网盘推出AI英语学习小程序“盘盘单词”

百度网盘新推出AI英语学习微信小程序“盘盘单词”，用户可通过照片学习英语，摆脱传统单词书。该小程序利用生成式AI技术，从用户照片中提取关键元素，生成与实际生活相关的英语单词和例句，助力用户加深记忆。普通用户每日限20张照片，会员用户无限次使用，会员月卡仅需9.9元，年卡39.9元。百度网盘表示，该工具基于千帆大模型，能不断优化学习算法，确保复习计划的有效性。

科大讯飞推出Spark Pro-128K大模型API，助力复杂任务与内容创作

科大讯飞近日宣布开放讯飞星火API的长上下文版本——Spark Pro-128K大模型，价格低至0.21元/万tokens。该模型具备强大的长文本处理能力，可提升复杂对话、长篇内容创作及数据分析等任务的解决效果。此外，新版本还首发了内容溯源功能，增强回答的可信度。个人用户还可免费领取200万tokens的服务量。

微软AI设计应用全平台上线

微软公司近日在苹果iOS和谷歌安卓平台发布了正式版的Microsoft Designer应用，经过近一年的预览测试后，该应用现可在多个平台上使用。通过这款应用，用户可以利用AI技术进行图片编辑、生成个性化贺卡和手机壁纸等创意设计工作。微软表示，该应用旨在释放用户的创造力，提供全平台、跨设备的体验，以满足不同场景下的AI项目需求。

亚马逊AI购物助手Rufus全面上线

亚马逊宣布，经过五个月测试，其生成式AI购物助手Rufus已对美国客户全面开放。Rufus旨在助力用户节省时间，做出明智购物决策，通过亚马逊App文本聊天界面回答各类购物问题，如商品推荐、订单查询等。此外，Rufus还具备广泛知识，能建议旅游目的地甚至创作短篇小说。这一创新将为电商领域带来全新智能购物体验。

谷歌Gemini推出新功能，全面增强用户体验谷歌

Gemini近期将迎来多项重大更新。定制GPT“GEM”让用户可自由查看、编辑和复制，打造专属智能助手。记忆或个性化回复功能，让用户享受更为人性化的对话体验。同时，新版本还集成了录音、Google Photos上传功能，方便用户随时分享生活点滴。此外，Chrome浏览器扩展的加入，更是让操作更加便捷。这些新功能的推出，无疑将进一步巩固Gemini在人工智能助手领域的领先地位。

底层技术

阿里云通义千问开源两款语音基座模型

阿里云通义千问近日开源了SenseVoice和CosyVoice两款语音基座模型。SenseVoice主打高精度多语言语音识别，情感辨识及音频事件检测，其识别效果优于OpenAI的Whisper模型。而CosyVoice则擅长多语言语音生成、零样本语音生成等功能。这两款模型的推出，不仅丰富了开源社区的语音技术资源，也为开发者提供了更多选择和创新可能。

微软推出SpreadsheetLLM：专为电子表格设计的AI大语言模型

微软最新研究显示，其开发的SpreadsheetLLM模型，专为Excel等电子表格应用设计，通过结构锚压缩、反向索引转换等技术，性能比传统方法提升25.6%，词元使用成本降低96%。尽管该模型在处理背景颜色和边框等复杂电子表格时存在局限，但已展现出显著优势。目前，微软尚未公布该模型的具体发布计划。

谷歌推出Project Oscar助力开源软件开发

谷歌近日发布Project Oscar，旨在通过AI智能体帮助开源开发团队更高效地管理软件项目。该平台可监控开发中的问题，支持自然语言交互，无需重写代码。目前已在Go项目中得到应用，能处理错误报告、丰富问题信息并与贡献者互动。Go项目拥有93000次提交和2000名贡献者，Project Oscar的引入将大幅提升了问题跟踪的效率。

OpenAI发布全能小型AI模型GPT-4o mini

OpenAI推出了“GPT-4o mini”，旨在扩大聊天机器人应用，声称它是功能最强、成本效益最高的小型模型。该模型支持多模态技术，可生成文本、图像、音频和视频，计划整合这些功能。GPT-4o mini已面向ChatGPT各类用户开放，作为5月发布的GPT-4o的衍生产品，GPT-4o提升了音视频和文本处理能力，支持50种语言，是OpenAI最快的模型。

英伟达携手Mistral AI发布Mistral-NeMo大语言模型

英伟达与法国初创公司Mistral AI联手推出了拥有120亿参数的Mistral-NeMo AI大语言模型，旨在为企业提供高效、低成本的AI解决方案。该模型可在本地硬件上运行，解决了数据隐私、延迟及高成本等问题，有望颠覆AI软件市场，为小型企业带来福音。模型的发布采用了Apache 2.0许可，进一步加速其在企业中的应用。

行业政策

德国法院裁定AI发明可获专利，需人类列为发明人

德国一家法院裁定，AI生成的发明在人类被列为发明人的情况下，可以申请专利。这一裁决由“人工发明者项目”推动，旨在探讨AI技术下的知识产权保护。此前，日本和英国法院均因发明人必须为自然人而驳回AI发明专利申请。德国法院的这一决定可能引发全球范围内对AI发明知识产权保护的重新审视。

欧盟《人工智能法案》8月1日生效，严格监管AI技术应用

欧盟《人工智能法案》将于8月1日生效，规定学校和工作场所不得使用实时情绪识别系统，部分AI应用将被禁止。AI开发者需遵循行为准则，OpenAI等公司须满足透明度要求。生成式AI内容必须明确标记，训练大模型的公司遵守《版权法》。这一法案旨在全面监管AI技术，确保其安全、透明并尊重版权。

美参议员提出COPIED法案以打击深度伪造

美国参议员提出跨党派提案，旨在打击有害深度伪造，建立AI生成内容透明度准则。该提案要求NIST制定出处信息和水印标准，保护创作者权益，禁止未经授权使用其内容训练AI。同时，赋予个人起诉违法者权利，并严禁篡改AI生成内容的出处信息。此法案将有助于维护内容真实性，保护记者、艺术家等免受AI剽窃侵害。

Meta因监管问题新AI模型在欧盟受限

Meta计划推出多模态Llama模型，但因欧盟监管环境不确定，将不在该地区发布。此决策涉及GDPR合规性及使用欧盟客户数据训练模型的难题。Meta将提供仅支持文本的Llama 3模型。此前，苹果也因监管问题，决定iOS 18和macOS Sequoia新系统在欧盟无法使用Apple Intelligence等功能。这反映了美科技巨头在应对欧盟严格数据隐私法规时的困境。

谷歌等14家公司组建安全AI联盟

近日，谷歌、微软、OpenAI等14家AI巨头在阿斯彭安全论坛上宣布联合组建安全人工智能联盟（CoSAI）。该联盟旨在提供设计安全AI系统的指导和工具，降低模型盗窃、数据中毒等风险。CoSAI将致力于开发AI安全最佳实践，应对行业挑战，并确保AI应用的安全。这一举措标志着AI行业在安全性方面迈出了重要一步。

文章来源微信公众号：京彩AI丨中发展智源人工智能

微软 AI 设计应用全平台上线，阿里云开源两款新语音基座模型

你可能感兴趣