金毛犬,百度外卖,食神-农村印记,时代的发展,老历史的印象

admin 2个月前 ( 09-12 17:11 ) 0条评论
摘要: 让电脑说人话 | 数字化转型 ING...

丹棱君有话说:快节奏的日子,使得信息获取愈加碎片化,媒体怎样能借傻猫大战三小强助 AI 赋能内容出产,完成更有用的传达?近来,《三联日子周刊》旗下新媒体渠道——“中读”与微软协作,凭借微软深度神经网络技能智能组成声响,生成高质量的有声响频节目,支撑多种语音风格切换;并将持续在声邱璐瑶音的交互、查找与推介上谋求新打破。《三联日子周刊》资深编缉袁越(笔名:土摩托)还与微软协作,依据特性化智能语音定制技能定制了专属声响。定制语音的阅历和感触终究是什么样的?咱们读于仁杰读这篇文章~(PS:文中音频有两段语音,哪个是人声?哪个是 AI 的声响?在谈论区给出你的答案,并说说理由,答对且被点赞数最多的五名小伙伴有奖哦~)

量身定制的音频课

现在盛行音频课,人们能够把平常花在通勤和练习上的时刻运用起来听书学习。不久前,三联中读计划把我在杂志上写的《生命八卦》专栏做成音频,我马上表明对立,由于那个专栏我写了 15 年,加起来超过了 80 万字。我可不想把自己关在录音棚里一遍又一遍地朗诵旧文,那是要死人的。

金子美惠

一位修正提议把文章输进电脑程序里主动生成音频,但我依然不同意,由于我曾经听过这样的音频内容,底子听不进去。记住那是一本惊险小说,内容严重影响,但电脑程序显然是依照中文的规范发音一个字一个字地往外蹦,根本没有正常人说话时的腔调崎岖和节奏改动,情感表达更是彻底缺失。我原以为我能够战胜这个妨碍,终究小说原本便是由一个个独立的汉字组合而成的,背面的精彩故事全赖读者脑补。电脑所做的不过是把汉字的视觉信号改变成汉语的音频信息,相当于换一个脑补的办法算了,这有啥难的?可试了几天之后,我发现真的很难!这种单调的机器声不但了解起来有困难,乃至会让人犯困,我常常听着听着就在地铁里睡着了。

经过那次实验,我总算亲自领会到了韵律关于言语的重要性。人类经过言语表达的信息有许多都是经过韵律的改动传递出来的,听者也早已习惯了这种信息接纳办法,和阅览有着实质的差异。

举个比方:为什么咱们常常会听错歌词?并不是由于歌唱的人发音禁绝,而是由于歌者为了姑息旋律,常常要改动言语原有的韵律,听者不习惯,很简单就被搞糊涂了。

尽管困难重重,但常识音频化的浪潮无法抵抗。所幸微软(亚洲)互联网工程院及时伸出援手,让我去试试他们新开发的依据深度神经网络的核算机组成语音体系(Neural Text-to-Speech,简称 Neural 金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象TTS),听说这套体系只需很少的练习量就能够仿照我的声响,替代我朗诵那些文章。这件事对我很有吸引力,所以我腾出了一个下午的时刻来到微软租借的一间录音棚,进行声响的搜集采样作业金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象。

依照我本来的想象,微软工程师会让我把 3000 个常用汉字都念一遍,做一个我的专属语音库。但出乎我预料的是,他们仅仅让我对着沙丁鱼挂机挣钱提词器念了 8 篇《生命八卦》专栏的旧文章,最终为了添加采样内容的丰富性,又让我补念了两段三联“旅行与地舆”栏目里的行记文章,加起来也就一万多字的内容,不到 金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象3 个小时就念完了。仅有费事的便是我有必要念得十分准确才行,即便念错一个字也要把整句话从头再念一遍。我缺少这方面的练习,一开端重复的次数得有点多,后来渐渐习惯了就好了。

一周后,微软发来了一段电脑组成的语音,念的是我最近写的那篇专栏文章《和癌细胞共存亡》。一听之下,我马上惊呆了!不但声响的质感很像我,就连我朗诵时的口气也仿照得活灵活现。我把它传给朋友和搭档们听,咱们也都被震动了,纷纷表明今后接到我发的语音信息有必要先得核实一下才敢信任。

(鄙人面的音频中,咱们将听到两段录音,分别是作者土摩托自己的声响,和人工智能组成的土摩托的声响,终究哪一个才是真的他,不如来猜猜看吧。欢迎在谈论区留言,留下你的答案,并给出你的理由,丹棱君近期将在谈论区揭晓答案,答对且开发三味被点赞数最多的五名读者有奖哦~)

其实他们大可不必忧虑。这段音频带有比较显着的朗诵腔,口气十分严厉,和我平常说话仍是有很大不同的。细心想想这也很好了解,终究电脑的样本库里只要我念的那一万多字科普文章的音频材料,我由于缺少专业练习,很难念出波澜起伏的感觉,电脑只不过忠实地仿照了我的朗诵风格罢了。事实上,由于文章内容比较严厉,假如用一般音频软件来读的话,很简单读成催眠曲。找一个不相干的人来读吧,又怕读得过分情绪化,不符合文章的闪婚老公太蛮横本意。现在这个成果刚刚好,不但准确地表达了原文的意思,并且听众应该也更期望听到文章作者自己的声响吧,这样会显得愈加亲热。

当然了,这段电脑朗诵并不是完美无瑕的,首要问题出在断句上,比方“点评一个癌细胞致癌性的强弱”这句话,电脑不知为安在“癌细胞”和“致癌性”这两个词之间停顿了一下,阐明电脑并没有真的了解这句话的意义。

既然如此,电脑是怎样做到把一篇科普文章朗诵得像作者自己的呢?带着这个疑问,我访问了坐落北京海淀区中关村的微软亚太研制集团总部,请人工智能语音组的产品总上海会聚投资有限公司监丁秉公和首席研制司理何磊为我具体解说了语音组成技能的前史,以及微软这套 Neural TTS 体系的作业原理。

语音组成的宿世此生

依据两位博士介绍,传统的中文语音组成技能大致能够分为前端和后端这两部分,前端的首要使命是对输入的文本进行语义剖析,即把一个个独自的中文字进行分词断句,并标示出每个词的词性,由于中文有多音字的问题,不同的词性读音很可能不相同,韵律也会有所不同。之后还要进行一次归一化处理(Normalization),比方 110 用在电话号码里应该读成幺幺零,而不是一百一十。前端部分需求电脑把握根本的言语规矩,机器学习程序也能够得到部分运用。

后端处理有两种不同的形式,一种叫拼接组成,即把每句话切成一个个小片段,然后从语音库里调出相应的片段加以拼接。这个进程有点像搭乐高,或许更准确地说,像特务写信时为了不让对方看出笔迹而从报纸上找单词,再剪下来拼接。另一种形式叫做参数组成,让电脑依据前端的语义剖析成果猜测相应的声学特征序列,再用声码器直接进行声响的组成。

这两种形式实质上都是依据核算的挑选,即哪种办法人类用的比较多就挑选哪种。比较之下,拼接组成形式做出来的声响更像真人,只不过会有点跳动,不行滑润。参数组成形式做出来的声响则正相反,听起来十分滑润,但却会显得单调无趣,缺少特性,并且声响会有点发闷,一听便是电脑做出来的。

装备摄像头和麦克风阵列的智能会议体系“黑塔”

从电脑的视点来看,拼接组成形式需求的核算量比较大,一般需求联网才干运用。参数组成形式需求的核算量比较小,合适离线状况,所以咱们平常听到的导航声响大都是用参数组成的办法做出来的。但像一些名人声响,比方郭德纲或许林志玲的定制声响,则是两者结合的产品。

微软早在 2003 年就成立了语音组,致力于开发电脑语音处理体系。在上述这两种传统办法的根底上,该组于上一年开端测验一个底子性的技能革新,即把现在最火的深度神经网络技能用了进来,最大极限地仿照人类说话的办法。

“咱们平常说话的时分,必定不会先在心里分词断句,再标词性标韵律,而是想到什么直接就说出来了,由于言语规矩早就存在咱们的脑子里了。”丁秉公对我说:“所以咱们依样画葫芦,直接把许多的文字以及相应的语音信息输进电脑,练习深度神经网络去学习这些真人的说话办法,这样学出来的语音包括有许多真人说话特有的声响细节,乃至像换气和咽口水等等纤细的声响都能够仿照出来,这就为声响定制供给了可能性。”

“我那天只给你们录了几百句话,这么点练习量怎样够呢?”我问。

“由于咱们的体系事前现已学习了成百上千个不同人的声响,得到了一个普适的通用模型(Universal Model),然后咱们只要把你的个人特征加进这个现已练习好了的体系里,进行一下优化就能够了。”何磊这样解2004辣妹奸细之危机四伏释:“优化好的体系就只适用于你一个人,读任何东西出来的都是你的声响,这便是咱们的声响定制服务。”

据介绍,现在这套体系现已能够商用,背面有微软云核算渠道 Azure 强壮的核算才能作为支撑。这就比方当年和李世石对弈的第一代阿尔法围棋程序,后台有一大堆核算机在张狂地作业着。经过不断地优化,和柯洁对弈的第二代阿尔法围棋程序就能够在一台单机上运转了,这套石萱体系也正朝这个方向尽力。

“咱们这套 Neural TTS 体系实质上依然是依据核算的,不是真实意义上的阅览了解,所以仍是会犯错,关于准确率要求较高的场景,后期需求编路虎n8辑进行校验和修正。”丁秉公告诉我,“其实真人录音相同需求后期处理,作业量也很大,而咱们这套体系的优点是能够先批量出产出一大批音频文件,投放到商场上去,然后依据听众的反应,挑出最受欢迎的书本或许文章,再找真人专门录一个高质量的音频版别就行了。”

关于我的音频节目来说,我需求找一个中英文都说得很好的朗诵者,由于《生命八卦》里有许多专有名词,大都附上了英文,最好能读出来。好在微软是一家跨国公司,所以这套体系在多言语混合的情况下体现得十分优异,比其他竞争对手要高一个层次。

“咱们这套体系还能够让你说许多种言语,即便你自己其实一句也不会说。”何磊补充到,“由于咱们现已把这些言语的通用模型做好了,只要把你的声响特征加上去就行了。”

何磊给我播放了几段演示音频,相同一个女声,既能够说中文和英文,也能够说德语、法语、日语和西班牙语,乃至连四川话都能说。

“其实咱们做这套体系不但是为了制造音频节目,还能够协助视障人员或许渐冻症患者宣布自己的声响。”丁秉公告诉我,“假定一个人知道自己得金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象了渐冻症,即将在不远的将来失掉说话的才能,咱们能够事前把他的声响录下来,然后他就能够经过电脑用自己的嗓音和外界通话了。

同理,现在市面上盛行的翻译机用的都是规范音,假如将来这套技能能够完成单机运转的话,就能够让翻译机宣布运用者自己的声响,听上去会愈加天然。

总归,这项技能前途无量,运用场景太多了。为了避免将来有人盗用这项技能假充别人谋取私利,微软特意在一切的电脑音频中加入了一个常人听不出来的符号信号,以便专业人士能够分辩出来。

语音辨认是更大的应战

聊了半响语音组成,我趁便问了问语音组成技能的恋生兄弟,语音辨认技能的现状。作为一名记者,这个功用也是十分有用的,能够协助我收拾采访录音。

“微软从上世纪 90 年代起就开端研讨言语辨认技能了,其时还只能做到 50% 的准确率,无法有用。”丁秉公介绍说,“经过多年的尽力,2017 年时咱们现已能够把错误率降到 5.1%,也便是说每 100 个字只听错 5 个,这个成果现已比真人要好了。”

我用微软供给的麦克风试了试,成心搀杂了一句含混不清的北京土话,竟然被正确地辨认了出来。

“你这个叫近场辨认,准确度最高。假如声源间隔麦克风超过了一米远,叫远场声,电脑尽管也能辨认出来,准确率就没有那么高了。”丁秉公解说说:“除此之外,咱们还得考虑环境噪声的影响、回声的搅扰、录音质量过低的问题,以及从多人对话平分辩出谁在说话,难度十分大。”

为了处理最终这个问题,能够事前对每一位说话者进行几分钟的声响采样,让电脑学会这些人的声响特征。但许多时分这是不可能做到的,此刻就得想点新的招数。丁秉金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象公为我演示了微软出的一套全新的会议记载体系,除了麦克风之外还添加了若干个摄像头,协助电脑更好地辨别出是谁在说话。假如会议室里安装了这套体系,会议完毕后就能够当即拿到完好的会议记载,十分便利。

关于人类来说,听必定要比说更简单。咱们小时分大都是先学会听,再学会说的,为什么电脑反过来了呢?答案要从电脑的特色中去寻觅。电脑和人脑比较,最大的特色便是愈加准确。假如一个问题能够被准确地界说或许描绘出来,电脑处理起来就金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象要简单得多,这便是为什么教电脑下围棋要比教电脑画画更简单。

在电脑言语这个事例里,语音组成便是一个界说明确的使命。输入电脑的原始数据是真人在录音棚里对着麦克风朗诵出来的,和对应的文本一字不差,数据十分洁净。用这样的数据练习电脑,能够更好地运用深度神经网络强壮的学习才能。比较之下,练习电脑语音辨认时所输入的原始数据就显得比较“脏”了,电脑最怕这种含糊的东西,处理起来就要困难得多。

尽管难度很大,但微软现已开宣布了支撑 30 多个国家的语音辨认体系,并支撑近场和远场等杂乱情况下的语音辨认使命。这套体系除了能够协助记者收拾录音,以及进行会议记载之外,还能协助长途服务公司对电话客服人员进行质量查看。此前这类查看只能靠听,很费时金毛犬,百度外卖,食神-乡村印记,年代的开展,老前史的形象间,现在能够把一切电话录音输入电脑,瞬间输出文字记载,然后质检员就能够经过关键词挑选等办法快速进行质量查看了。

关于一般人来说,这两套体系更为人所知的运用便是人机对话,比方微软小娜和小冰。不过,语音组成和辨认仅仅人机对话的根底,其背面还需求更高档的人工智能作为后台,这是别的一个话题了。

语音组成和语音辨认是一枚硬币的正反两面,正好能够用来彼此学习,就像最初阿尔法围棋程序经过左右互搏来进步水平相同。微软正在测验把这两套体系结合起来,相互练习,期望能赶快进步水平,真实做到像人相同说话听音。

值康美心语得一提的是,微软的语音辨认和组成技能并不仅仅为某个警界金童产品服务的,它更像是一个技能渠道,任何客户都能够经过微软的云核算平悔爱终身台 Azure 享用这项服务。事实上,微软早就不是那个只卖 Windows 操作体系的软件公司了。在新任 CEO 的领导下,微软现已改变成了一家致力于供给云核算服务的 to B 公司,现在市面上很芭蕾舞少女多需求电脑语音功用的公司都采用了微软供给的技能。

总的来说,尽管现在的电脑越来越像人,但间隔真实意义上的人工智能还差的很远。微软的这套语音组成与辨认技能更像是一个黑匣子,咱们只能一边输入一边输出,并不知道匣子里终究发生了什么。要想真实做到让电脑像人相同在了解的根底上说人话,学徒很抢手有必要想办法打破黑匣子,弄清楚里边终究发生了什么,咱们间隔那一天还有很长的一段路要走。

本文转自《三联日子周刊》,作者袁越(笔名:土摩托),原标题为“让电脑说人话”。

文章版权及转载声明:

作者:admin本文地址:http://www.symbiose-nc.com/articles/3311.html发布于 2个月前 ( 09-12 17:11 )
文章转载或复制请以超链接形式并注明出处农村印记,时代的发展,老历史的印象