(相关资料图)
世界上大约7000种已知的语言中,有将近一半的语言,也就是其中的十分之四是口耳相传,没有包含书面内容。这些无文字的语言给现代机器学习翻译系统带来了一个独特的问题,因为它们通常需要在翻译到新语言之前将口头语言转换为书面文字,并将文字还原为语音,但Meta公司已经通过其最新的开源语言AI进展解决了这个问题。
作为Meta公司通用语音翻译器(UST)项目的一部分,该项目正致力于开发实时语音到语音的翻译,以便元宇宙居民能够更容易地进行互动(读作:互相进行性骚扰)。作为这个项目的一部分,Meta的研究人员研究了福建闽南话,这是一种散居在亚洲各地的无文字语言,也是台湾地区的主流语言之一。
机器学习翻译系统通常需要大量可标记的语言例子,包括书面和口语来进行训练--这正是像闽南话这样的无文字语言所不具备的。为了解决这个问题,"Meta使用语音到单元的翻译(S2UT),将输入的语音直接转换为Meta以前开创的声学单元序列,"首席执行官马克-扎克伯格在周三的一篇博文中解释说。"然后,我们从这些单元生成波形。此外,UnitY被采用为双通解码机制,第一通解码器生成相关语言(普通话)的文本,第二通解码器创建单元。"
"我们利用普通话作为中间语言来建立伪标签,我们首先将英语(或上面说的闽南话)语音翻译成普通话文本,然后我们再翻译成闽南话(或英语)并将其加入训练数据。"目前,该系统允许讲福建话的人与讲英语的人交谈,尽管很生硬,且该模型一次只能翻译一个完整的句子。但扎克伯格相信,这项技术最终可以应用于更多语言,并将改进到提供实时翻译的程度。
扎克伯格宣布,除了Meta已经从这个项目中开源的模型和训练数据外,该公司还将发布一个基于闽南话话语料库的首个语音翻译基准系统,以及"语音矩阵,一个用Meta的创新数据挖掘技术LASER挖掘的语音翻译大料库"。这个系统将使研究人员能够创建他们自己的语音到语音翻译(S2ST)系统。
-
四川西充:你们乘风破浪 我们全力护航|每日快看四川经济网南充讯(王雪沁记者李国富)一年一度高考拉开帷幕...
-
世界滚动:科力远:正研发新型泡沫镍金属材料以开拓不同市场领域科力远(600478)近日在机构调研中表示,公司目前正在研发新型...
-
天天精选!消息称特斯拉正在动员中国供应链企业去墨西哥建厂据36氪消息,特斯拉正在动员不少中国的供应链企业去墨西哥建...
-
椰树风评反转:超30万人认为椰树直播不算“擦边” 当前热闻据中新网报道,在被视为“宇宙尽头”的直播带货场上,椰树一...
-
立昂技术:预中标6817.94万元四川联通综合代维及技改施工项目 资讯近日,四川联通2023-2025年综合代维及技改施工服务项目公布了...
-
天天观天下!做好“融新活” 建设博物馆之城在博物馆之城的建设过程中,博物馆要有“融”的自觉,守正创...
-
天天观天下!腾讯测试视频号小店虚拟号,618后预计上线据亿邦动力消息,腾讯正在灰度测试视频号小店虚拟号功能,预...
-
跨境电商平台Temu或将于6月22日正式在日本上线据“日贸通”公众号报道,拼多多海外版“Temu”将于本月22日...
-
【速看料】第十五届“全国文化企业30强”发布 江苏广电集团再次上榜第十五届“全国文化企业30强”发布江苏广电集团再次上榜6月7...
-
视焦点讯!登记地址无法联系,乐视网被列为经营异常天眼查App显示,近日,乐视网信息技术(北京)股份有限公司因...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34