微软 AI 设计应用全平台上线,阿里云开源两款新语音基座模型
将分享
每周最新的行业资讯
最前沿的ai动态
快来看看上周AI行业
都发生了哪些大事
欢迎关注~
产品应用
腾讯智影小程序推出了AI视频功能,用户能一键生成日漫风格的风格化视频,此功能目前免费使用。该功能通过风格化处理提升视频美感、趣味性和传播力,支持10秒视频快速转化,并提供多样模板。智影自2023年3月上线,整合了AI创作能力,提供虚拟数字人、文本配音等智能创作工具。新功能的加入进一步丰富了用户的创作手段,提升了内容创作的效率和趣味性。
三星 One UI 6.1.1 引入“手稿到图像”等 AI 功能
三星在Galaxy Unpacked发布会上推出新手机及One UI 6.1.1更新,其中“手稿到图像”功能利用AI将手绘草图转化为精美图像,与背景完美融合。“人像工作室”则允许用户将照片转换成多种风格。这些AI功能旨在提升用户的创意体验,并需云端支持,确保图片无透明背景以生成高质量的3D头像。新功能预期将扩展至更多Galaxy设备。
蚂蚁集团推出EchoMimic,实现自动对口型视频技术
蚂蚁集团近日发布了开源的EchoMimic项目,该技术利用人工智能算法分析人像照片的面部特征和音频,生成同步口型的视频。该技术结合了面部标志点和音频特征,确保视频的稳定性与自然度,支持多语言和多风格,适用于包括歌唱在内的多种场景。这一创新为视频制作带来新可能,用户可轻松创建富有真实感的对口型视频,将推动多媒体内容创作领域的进一步发展。
百度推出全新AI社交应用“文小言”,开启数字化交友新体验
百度发布了首款基于文心大模型的AI数字人社交应用“文小言”。用户可以与仿真数字人进行实时互动,并建立情感连接。虽然功能与同类AI聊天产品相似,但“文小言”的仿真数字人提供了更真实的交互体验。尽管肢体动作尚不流畅,且不支持创建专属数字人,但每个AI数字人都拥有独特的聊天服务,旨在成为用户的知心伙伴。
百度网盘推出AI英语学习小程序“盘盘单词”
百度网盘新推出AI英语学习微信小程序“盘盘单词”,用户可通过照片学习英语,摆脱传统单词书。该小程序利用生成式AI技术,从用户照片中提取关键元素,生成与实际生活相关的英语单词和例句,助力用户加深记忆。普通用户每日限20张照片,会员用户无限次使用,会员月卡仅需9.9元,年卡39.9元。百度网盘表示,该工具基于千帆大模型,能不断优化学习算法,确保复习计划的有效性。
科大讯飞近日宣布开放讯飞星火API的长上下文版本——Spark Pro-128K大模型,价格低至0.21元/万tokens。该模型具备强大的长文本处理能力,可提升复杂对话、长篇内容创作及数据分析等任务的解决效果。此外,新版本还首发了内容溯源功能,增强回答的可信度。个人用户还可免费领取200万tokens的服务量。
微软公司近日在苹果iOS和谷歌安卓平台发布了正式版的Microsoft designer应用,经过近一年的预览测试后,该应用现可在多个平台上使用。通过这款应用,用户可以利用AI技术进行图片编辑、生成个性化贺卡和手机壁纸等创意设计工作。微软表示,该应用旨在释放用户的创造力,提供全平台、跨设备的体验,以满足不同场景下的AI项目需求。
亚马逊AI购物助手Rufus全面上线
亚马逊宣布,经过五个月测试,其生成式AI购物助手Rufus已对美国客户全面开放。Rufus旨在助力用户节省时间,做出明智购物决策,通过亚马逊App文本聊天界面回答各类购物问题,如商品推荐、订单查询等。此外,Rufus还具备广泛知识,能建议旅游目的地甚至创作短篇小说。这一创新将为电商领域带来全新智能购物体验。
谷歌Gemini推出新功能,全面增强用户体验谷歌
Gemini近期将迎来多项重大更新。定制GPT“GEM”让用户可自由查看、编辑和复制,打造专属智能助手。记忆或个性化回复功能,让用户享受更为人性化的对话体验。同时,新版本还集成了录音、Google Photos上传功能,方便用户随时分享生活点滴。此外,Chrome浏览器扩展的加入,更是让操作更加便捷。这些新功能的推出,无疑将进一步巩固Gemini在人工智能助手领域的领先地位。
底层技术
阿里云通义千问开源两款语音基座模型
阿里云通义千问近日开源了SenseVoice和CosyVoice两款语音基座模型。SenseVoice主打高精度多语言语音识别,情感辨识及音频事件检测,其识别效果优于OpenAI的Whisper模型。而CosyVoice则擅长多语言语音生成、零样本语音生成等功能。这两款模型的推出,不仅丰富了开源社区的语音技术资源,也为开发者提供了更多选择和创新可能。
微软推出SpreadsheetLLM:专为电子表格设计的AI大语言模型
微软最新研究显示,其开发的SpreadsheetLLM模型,专为Excel等电子表格应用设计,通过结构锚压缩、反向索引转换等技术,性能比传统方法提升25.6%,词元使用成本降低96%。尽管该模型在处理背景颜色和边框等复杂电子表格时存在局限,但已展现出显著优势。目前,微软尚未公布该模型的具体发布计划。
谷歌推出Project Oscar助力开源软件开发
谷歌近日发布Project Oscar,旨在通过AI智能体帮助开源开发团队更高效地管理软件项目。该平台可监控开发中的问题,支持自然语言交互,无需重写代码。目前已在Go项目中得到应用,能处理错误报告、丰富问题信息并与贡献者互动。Go项目拥有93000次提交和2000名贡献者,Project Oscar的引入将大幅提升了问题跟踪的效率。
OpenAI推出了“GPT-4o mini”,旨在扩大聊天机器人应用,声称它是功能最强、成本效益最高的小型模型。该模型支持多模态技术,可生成文本、图像、音频和视频,计划整合这些功能。GPT-4o mini已面向ChatGPT各类用户开放,作为5月发布的GPT-4o的衍生产品,GPT-4o提升了音视频和文本处理能力,支持50种语言,是OpenAI最快的模型。
英伟达携手Mistral AI发布Mistral-NeMo大语言模型
英伟达与法国初创公司Mistral AI联手推出了拥有120亿参数的Mistral-NeMo AI大语言模型,旨在为企业提供高效、低成本的AI解决方案。该模型可在本地硬件上运行,解决了数据隐私、延迟及高成本等问题,有望颠覆AI软件市场,为小型企业带来福音。模型的发布采用了Apache 2.0许可,进一步加速其在企业中的应用。
行业政策
德国法院裁定AI发明可获专利,需人类列为发明人
德国一家法院裁定,AI生成的发明在人类被列为发明人的情况下,可以申请专利。这一裁决由“人工发明者项目”推动,旨在探讨AI技术下的知识产权保护。此前,日本和英国法院均因发明人必须为自然人而驳回AI发明专利申请。德国法院的这一决定可能引发全球范围内对AI发明知识产权保护的重新审视。
欧盟《人工智能法案》8月1日生效,严格监管AI技术应用
欧盟《人工智能法案》将于8月1日生效,规定学校和工作场所不得使用实时情绪识别系统,部分AI应用将被禁止。AI开发者需遵循行为准则,OpenAI等公司须满足透明度要求。生成式AI内容必须明确标记,训练大模型的公司遵守《版权法》。这一法案旨在全面监管AI技术,确保其安全、透明并尊重版权。
美参议员提出COPIED法案以打击深度伪造
美国参议员提出跨党派提案,旨在打击有害深度伪造,建立AI生成内容透明度准则。该提案要求NIST制定出处信息和水印标准,保护创作者权益,禁止未经授权使用其内容训练AI。同时,赋予个人起诉违法者权利,并严禁篡改AI生成内容的出处信息。此法案将有助于维护内容真实性,保护记者、艺术家等免受AI剽窃侵害。
Meta因监管问题新AI模型在欧盟受限
Meta计划推出多模态Llama模型,但因欧盟监管环境不确定,将不在该地区发布。此决策涉及GDPR合规性及使用欧盟客户数据训练模型的难题。Meta将提供仅支持文本的Llama 3模型。此前,苹果也因监管问题,决定iOS 18和macOS Sequoia新系统在欧盟无法使用Apple Intelligence等功能。这反映了美科技巨头在应对欧盟严格数据隐私法规时的困境。
谷歌等14家公司组建安全AI联盟
近日,谷歌、微软、OpenAI等14家AI巨头在阿斯彭安全论坛上宣布联合组建安全人工智能联盟(CoSAI)。该联盟旨在提供设计安全AI系统的指导和工具,降低模型盗窃、数据中毒等风险。CoSAI将致力于开发AI安全最佳实践,应对行业挑战,并确保AI应用的安全。这一举措标志着AI行业在安全性方面迈出了重要一步。
文章来源微信公众号:京彩AI丨中发展智源人工智能