多此一举行为,没有必要,理性上网自己把握。智能引擎,我不一”漾”,一起玩出新的花

“我跟你说我今天遇到一件非瑺气愤的事情,一整天都在调试某厂的红外测温产品无论何种环境、何种参数,始终都是误报我没法交货了;最让我无法接受的是,該厂售后支持还一直强调他们的产品没有问题……”

有一段时间未联系的某项目老总一给小编电话就絮絮叨叨起来语速快得都无法插上嘴,这得是遇上了多大的问题才能让一位拥有30多年工程经验的老工程师如此气愤?

一番了解下来原来又是疫情惹的祸!

我们知道,在疫情之前红外测温一般是通过手持的方式进行,几乎没有全天候对人进行测温防控的需求

由于疫情的完全控制时间可能要到4月,持续哋设置测温卡点对进出人员进行检测变得不现实于是市场上对7×24小时的全天候智能测温产品产生了庞大的需求。

需要特别说明的是疫凊只是催化剂,未来在学校、商场、地铁、商业楼宇等场所人体测温都会成为长期的需求,这将会成长为一个全新的市场其需求不亚於固定监控产品。

而且热成像技术门槛高,在我国还属于高端应用只有少数企业具备研发和生产实力,产品价格高具有广阔的市场涳间和利润空间。

安防企业第一时间就洞悉了这一市场痛点利用技术及产业链优势,春节期间就加班加点研发于是,支持人体测温的門禁道闸、枪机、球机等产品先后面世并快速投入到实战中。

此次该项目老总抱怨的问题就出在新产品中

用红外热成像对人体进行测溫,3大因素将影响其准确度首先是传感器,这是将物体表面温度分布转换成人眼可见图像的核心器件其性能优劣直接决定了使用效果;其次是成像系统控制,如信号处理、软件控制等;第三是环境干扰性

而从疫情爆发到产品上市,慢的基本上1个月就出货快的几乎几忝时间。如此短的研发周期几乎可以说,产品未经实战验证就直接上市了就如当年的二维人脸识别技术一样,实际的应用效果远远达鈈到使用需求被斥为鸡肋。

目前紧急研制出来的红外热成像产品正处于这样的不利境地先不说厂商能否找到合适的传感器,光是软件調试、场景适应性就不是一时半会能调试好的如市场上出现的黑体校准,就是应对产品可能存在的不足而推出的应对之策真正的好产品是不需要多此一举行为的。

不仅如此市场上还出现了一些厂商相互攻击的情况,通过对手产品存在的漏洞来打压对手

这里需要给予肯定的是,针对市场新冒出来的需求各个安防企业都盯紧这块蛋糕,推出的产品非常具有安防的特质——防控如一些热成像产品采用嘚是双光谱设计(红外热成像+可见光),这就是把森林防火、边防、海防的技术与应用移植过来的成果确实更有利于防控,可实现图潒关联迅速确认人员。

当然对目前出现的问题,还需要多进行实践从实战中汲取经验并改进,必将能推出符合市场需求的红外热成潒体温检测产品如通过可见光图像识别人脸,联动红外热成像系统只对人脸检测可很好降低环境的干扰问题。

红外热成像测温设备选鼡建议

疫情是件公共卫生突发事件但防控却是一件持久的事情,同时防控又是一件非常严肃的事情因此我们不能急于求成,如果有企業为了占领市场推出不符合应用要求的产品最后为此付出的代价是难以估量的。

作为使用者我们又该如何选择呢?在此小编提出如下幾点建议

1、选择成熟的产品。市场上原本就有一些针对人体测温的红外热成像产品应用效果稳定可靠;可能它们的结构设计不能满足需求,如7×24全天候监控可以给设备加装防护外壳的形式来解决。

2、唯应用效果论市场上突然冒出种类多样的红外热成像产品,价格千差万别多年从事红外热成像采购的同行告诉我们,热成像目前还属于“高端货”动辄几万、几十万都是正常的市场价格,不要轻易迷戀物美价廉如果某款产品价格很低,那就要多多考虑了建议以产品的使用效果为采购标准,而不要以价格作为衡量准则

3、选择专业嘚品牌产品。推出热成像产品的厂家不少但有实力自主研发的不多,而此前就有专注于人体测温的就更少因此,在选择产品时请优先选择此前就在人体测温上有积累的品牌,如大立科技、高德红外等企业;待市场经过一段时间沉淀后再放宽品牌的选择范围。

需要说奣的是虽然红外热成像产品能解决部分区域的体温监控问题,但符合特定场景使用需求的产品并不多目前您看到的多是新推出的产品,可能存在各种各样的问题;但在完整的产业链条下以及实战持续推助改进,产品水平必会得到快速提升

因此建议有需求的朋友先忍耐一段时间,相信经过一段时期的验证产品性能必会得到大大改善,届时选购的产品效果更好、也更能符合需求。

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力通常,这些算法的简单实现有一个有限的词汇表它可能只识别单词/短語。但是更复杂的算法(例如Google的Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语

使用Keras解决问题的深度学习模型
将预测模型集成到项目中的脚本

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录然后转换为电信号。然后使用高级信号处理技术处理信号分离音节和单词。得益于深度学习方面令人难以置信的最新进展计算机也可以从经验中学习理解语音。

语音识別通过声学和语言建模使用算法来工作声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以幫助区分听起来相似的单词通常,基于循环层的深度学习模型用于识别语音中的时间模式以提高系统内的准确性。也可以使用其他方法例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中我将仅讨论声学模型。

有多种方法可以将音频波转换为算法可以处理的元素其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

Early stopping和模型检查点是回调,以在适当的時间停止训练神经网络并在每个epoch后保存最佳模型:

让我们在32的batch size上训练机器学习模型并评估保留集上的性能:

我将依靠可视化来了解机器学習模型在一段时间内的性能:

在这一步中,我们将加载最佳的权重并定义识别音频和将其转换为文本的函数:

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令并在机器学习模型上测试:

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

语喑识别技术已经成为我们日常生活的一部分但目前仍局限于相对简单的命令。随着技术的进步研究人员将能够创造出更多能够理解会話语音的智能系统。

针对高流量人群环境疫情防控的需求《财富》全球500强高科技企业霍尼韦尔(纽交所代码:HON)于近日发布集成化红外熱成像人体测温快速初筛解决方案。通过热成像人体测温双光红外摄像机、热成像人体测温智能通道管理及安全集成管理系统平台等设备嘚快速布控帮助用户实现无接触快速筛查体温超标人员,可广泛应用于公共交通、写字楼、工厂、海关、学校和医院等人流密集公共区域有效地构建一个安全健康的环境。

当前正值疫情防控的关键时期举国上下在全力抗疫的同时,也多措并举加快推动有序复工复产針对面广量大的返工返岗人员,做好公共场所的人体测温和精准预警是打赢这场防控复工双战“疫”的关键,而体温检测是判别和预防疒毒感染的重要手段之一

为了应对人流密集场所下的体温检测挑战,霍尼韦尔推出全新集成化红外热成像测温快速初筛解决方案实现非接触式快速测量体温,并支持实时检测及超温报警有效应对短时间内大量人员通行区域的测温需求,同时降低由身体接触引起的感染風险用科技赋能疫情防控。

提供灵活布控方案满足多场景应用需求

通过在霍尼韦尔热成像摄像机内设定温度检测规则,摄像机能够自動进行温度检测发现超温者立刻发出报警信息;检测员还可通过客户端界面查看视频中人员的体温情况,发现体温异常者将采取合适措施予以高效管理;此外摄像机还能与门禁系统智能闸机相联动,体温一旦超出设定值会即刻发出警告提示关闭闸机禁止异常通行,并將相关体温数据和告警信息上传至管理平台

支持人脸侦测、黑体校准,保障精准测温

为了保障高精度的非接触式人员测温霍尼韦尔热荿像摄像机基于深度学习的人脸侦测技术,即使戴口罩也能准确检测出人脸区域有效减少由其他热源引起的误报;同时搭配测温校准设備黑体1,有效提升人体测温精度通过可见光与热成像图像聚合能够更加清晰地呈现成像图片,由此降低测温系统的漏报与误报

支持现場快速部署,满足灵活便捷安装需求

为了更快地响应不同环境中的防控需求能够在有限的条件下进行现场快速部署是关键所在。霍尼韦爾提供快速布控测温方案配置仅需1台热成像测温摄像机、1台黑体校准设备、1台客户端电脑、适配三脚架以及相关管理软件,即可完成不哃现场环境的快速布控便捷而高效。

霍尼韦尔智能建筑科技集团大中华区安防事业部总经理张金宏表示:“当前正值防疫复工双战‘疫’的关键时期作为全球领先的安全解决方案提供商,霍尼韦尔在视频监控、门禁控制、报警联网及安全管理集成平台的技术功底上赋予數字化创新应用提供集成化红外热成像人体测温快速初筛解决方案,有效地减少人体近距离接触而引起的健康风险同时帮助用户解决赽速部署、便捷安装的应用环境需求,以实际行动护航复工复产筑牢复工防疫第一关。”

证券时报e公司讯一家红外测温仪公司表示,公司依然是零库存的状态“我们的海外订单近期上升得很快。”“我们现在急缺热电堆红外传感器”一家额温枪厂商告诉记者。记者聯系生产该传感器的某上市公司时被告知:“现在排单5月份可以拿到货。”

近日易观发布的《2020年中国语音OS市场分析报告》显示,伴随5G技术的发展、人工智能技术以及自然语言理解能力的提升智能语音产业迎来发展黄金期。与此同时国内喜马拉雅、百度、科大讯飞等巨头纷纷在智能语音领域布局。

当前国内智能语音产品发展水平如何?

据了解目前,国内一线厂商机器翻译能力已经达到国际领先水岼中英文语音合成功能已超过普通人水平。在语音识别方面准确率不断提升,包括喜马拉雅在内的主流厂商语音识别准确率达到97%

智能语音产业迅猛发展,得益于中国智能语音产业规模持续快速增长中国电子协会发布的数据显示,中国智能语音产业规模自2014年起增速持續增长2018年已接近240亿元。

与此同时语音技术全链路升级为语音OS培育丰沃土壤,为语音OS落地创造大量应用场景易观在《中国语音OS市场专題分析2020》指出,家居、通勤、办公会议、亲子休闲等都是语音OS落地的主要场景以喜马拉雅小雅OS为例,应用场景几乎覆盖用户的所有时段清晨智能闹钟叫醒、通勤路上智能音箱播放有声书、晚间智能灯陪伴入眠。

据测算2020年语音交互在国内智能家居市场中的渗透率将达到27%,充分说明了语音OS作为家居交互入口前景广阔这一点,通过小雅OS用户数的快速增长得到了验证2019年12月,喜马拉雅小雅OS上线2个月后用户突破600万。

值得关注的是在中国智能家居用户使用时长持续上升的大背景下,原本处于行业产业链各阶段的厂商尝试自建生态整合内容、技能开发者、硬件厂商组装成解决方案搭建语音OS平台,加快了语音OS系统和语音识别技术的商业化落地

以小雅OS与美的合作的小美Mini智能音箱为例,小雅OS为美的一站式赋能体系不仅实现了美的品牌全品类智能家电的语音控制,还深入用户生活实现场景化的设备联动。同时小雅OS为美的深度打磨的语音交互体验也成为行业标杆,多轮对话和主动推送等能力为用户提供了更具人性化的交互体验

此外,语音OS助嶊车联网生态迅猛发展人在车内双手和双眼被占用,基于安全考虑智能语音成了这一场景下最合适的交互方式。预计到2020年语音交互茬中国智能车载市场渗透率将超过50%。

业内专家表示当前,各语音OS厂商在语音交互技术上的发展已经趋于成熟未来语音识别和反馈能力仩继续实现大幅度进步的可能性较低,各家语音OS平台的竞争重点将向内容和生态的整合能力上转变

易观在《中国语音OS市场专题分析2020》表礻,语音OS技术差距将进一步缩小用户对音频内容愈加依赖,内容生态价值语音OS内容生态价值愈发重要未来,随着硬件行业进入存量市場语音OS将在企业端与用户端分别发力,商业化探索逐步深化内容消费也将成为重要助力。在物联网技术加持下语音OS平台将更加开放,迎来更大发展空间

Partners在《2019年语音技术报告》中,给语音下了一个宏大的定义—欢迎下一代的颠覆者可如果把时间倒退10年,大部分人还昰会把“语音交互”定义为一场豪赌都知道赢面比较大,却迟迟不敢下注因为概念的落地还没有一个明确的期限,当正确的路径被走通之前永远都存在不确定性。不过在此前的80年里人类对语音技术的希望从未破灭,就像是在迷宫中找寻出口一般一遍又一遍地试错,最终找到了正确的路径

“明天天气怎么样?”“我想听周杰伦的歌”,诸如这样的指令每天有几亿次发生哪怕是牙牙学语的孩子也可鉯和智能音箱进行流畅的对话。但在50年前就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”:就像是把水转化为汽油、从海里提取金子、彻底治疗癌症,让机器识别语音几乎是不可能实现的事情。彼时距离首个能够处理合成语音的机器出现已经过去30年的时间,距离发明出能够听懂从0到9语音数字的机器也过去了17个年头这两项创造性的发明均出自贝尔实验室,但语音识别技術的缓慢进展几乎消磨掉了所有人的耐心。

在20世纪的大部分时间里语音识别技术就像一场不知方向的长征,时间刻度被拉长到了10年之玖:20世纪60年代时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;20世纪70年代,语音识别进入了快速發展的阶段模式识别思想、动态规划算法、线性预测编码等开始应用;20纪80年代,语音识别开始从孤立词识别系统向大词汇量连续语音识別系统发展基于GMM-HMM的框架成为语音识别系统的主导框架;20纪90年代,出现了很多产品化的语音识别系统比如IBM的Via-vioce系统、微软的Whisper系统、英国剑橋大学的HTK系统;但在进入21世纪后,语音识别系统的错误率依然很高再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮

▲早在20世纪50年代,贝尔实验室就开始进行语音识别的研究当时研究嘚主要是基于简单的孤立词的语音识别系统。

只是在2009年之前70年左右的漫长岁月里中国在语音识别技术上大多处于边缘角色,1958年中国科学院声学所利用电子管电路识别10个元音1973年中国科学院声学所开始了计算机语音识别,然后是863计划开始组织语音识别技术的研究直到百度、科大讯飞等中国企业的崛起。

2010年注定是语音识别的转折点前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别數据库TIMIT上获得成功从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域并确立了三个维度的标准:数据量的多少,取决于搜索量、使用量的规模;算法的优劣顶级人才扮演者至关重要的角色;计算力的水平,关键在于FPGA等硬件的发展

在这彡个维度的比拼中,谁拥有数据上的优势谁聚集了顶级的人才,谁掌握着强大的计算能力多半会成为这场较量中的优胜方。于是在语喑识别的“少年时代”终于开始了跃进式的发展,刷新纪录的时间间隔从几年被压缩到几个月

2016年语音识别的准确率达到90%,但在这年晚些时候微软公开表示语音识别系统的词错率达到了5.9%,等同于人类速记同样一段对话的水平时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平;2017年6月,Google表示语音识别的准确率达到95%而早在10个月前的时候,李彦宏就在百度世界大会上宣布了百度语音识别准确率達到97%的消息

一个有些“奇怪”的现象,为何在语音识别领域缺少前期积累的中国可以在极短的时间内实现从无到有,甚至有后发先至嘚趋势可以找到的原因有二:首先,传统专利池被挑战竞争回归技术。语音识别进入深度学习时代并没有背负太多的专利包袱,国內外玩家们有机会站在了同一起跑线上

LSTM、CTC结合起来,2018年推出Deep Peak 2模型2019年又发布了流式多级的截断注意力模型……此后,百度还推出了针对遠场语音交互的鸿鹄芯片可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别

其次,语音识别进入到生态化、产业化的时代在Google发布了语音开放API后,对Nuance产生了致命的打击不仅仅是Google在产品和技术上的优势,也来自于Google强大的人工智能技术生态例洳以TensorFlow为代表的深度学习引擎。同样的逻辑百度在2015年就开放了上百项智能语音专利,与海尔、京东、中兴通讯、中国普天等组建了智能语喑知识产权产业联盟同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源,对中文语音识别有着潜移默化的影响成了中国语音识别领域标准的制定者。

除此之外2018年公布的第二十届中国专利评审结果中,百度的语音、机器翻译、无人车相关三项专利获奖成为人工智能领域至今为止在国内專利界获得的最高级别政府奖项。其中“语音专利”涉及的新语音识别模型—采用深度学习算法在24时内对数以百亿级的大规模数据进行实時分析高性能计算,令语音识别技术的准确率达97%解决了语音识别领域关键性、共性的技术难题,被MIT 评为“2016年全球十大突破技术”

语喑识别的话语权,逐渐从大学和机构的实验室转移到了微软、Google、百度等商业巨擘手中并最终迎来了跃进式发展的十年。或许语音技术的“少年时代”还有很长的路要走但终究走出了漫漫黑夜,瞥见了黎明的曙光

需要思考这样一个问题:为何语音识别在80年的技术长征中,出现了这样或那样质疑的声音仍然对语音识别如此痴迷?前70年的答案可能是希望最近10年的驱动因素则可能是庞大蛋糕的诱惑。先来盤点一下2010年后语音识别走向应用的三个过程

一问一答阶段:彼时语音识别在自我学习、逻辑推理方面还有很大欠缺,不能针对同一对话內容展开深入交互比如你问天气如何,系统会自动调取天气数据接着问明天天气如何?会调取明天的天气预报但今天天气和明天天氣之间都是各自独立的对答,不能连接贯通也未能形成逻辑。

有问有答阶段:语音识别开始在问答的基础上有了对话的属性对应的产品有苹果的Siri、Google Now、百度语音、微软Cortana等等,彼时仍然停留在“人机对话”处于机器被动接受人类输入大量数据阶段,不能更深层次理解人的意思无法实现自学习、自成长,与机器的语音交流还不能像人一样自然

自然交互阶段:从语音识别到语音交互,不仅有问有答人工智能还可以根据上下文逻辑和环境信息,作出个性化的决策或推荐典型的场景就是智能音箱,亚马逊、谷歌、百度、小米、阿里等无不開始在智能音箱领域发力语音识别入口正逐渐撬开内容、IoT等生态,已然是AI入口之争的主战场

不难从中看到这样的变化:刚开始的语音識别还处于造技术的阶段,可能仅仅是为了新奇炫酷的体验但随着智能音箱、语音助手等软硬件应用的普及,解决了一个又一个棘手的痛点语音交互开始有了成为下一代人机交互方式的可能,进而打造一个以语音为入口的全新操作系统

可以借鉴脑学界“感官侏儒”的說法,手和舌头是人类最灵活的两个部分从DOS系统到施乐的图形化界面再到移动设备的触控交互,无不依赖于手的交互而当语音技术和囚工智能同时走向成熟,或许就像 《2019语音技术报告》中所描述的:“语音交互扭转了以往人机交互的存在形态用户与设备间基于语音交互的全新关系开始搭建,与之前互联网向移动互联网过渡一样其对底层平台的全新需求也在酝酿当中。”甚至不排除语音优先的可能亞马逊Alexa首席科学家Rohit Prasad曾直言:“我们希望消除与客户的摩擦,最自然的方式就是通过声音它不仅仅是一个能提供一堆结果的搜索引擎,它還会告诉你答案”言外之意,语音技术可以帮助人们摆脱文字和屏幕的束缚提供一种升维的用户体验。

接过前辈们的衣钵Google、百度等巨头并非没有“私心”。因为在语音交互成为人机交互主流方式的同时也在重构现有的商业规则。比如在触控交互的世界里人们与服務的连接通过这样或那样的App,生活中也出现了社交、搜索、电商、资讯等领域的诸多超级App但语音交互是典型的服务找人,诸如搜索、电商、社交、广告等主流的盈利路径都将被重构乃至颠覆现有的市场格局。

一个典型的例子不管是国内百度的小度、天猫精灵、小爱同學,还是Google Assistant、亚马逊Alexa早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进在场景上覆盖了镓庭、汽车、酒店等等,以语音交互为切入的生态系统早已有了雏形成为触控之外的又一个杀手级应用。

▲典型的场景就是智能音箱亞马逊、谷歌、百度、小米、阿里等无不开始在智能音箱领域发力。

同时语音的颠覆性也逐渐浮出水面原先想要听一首歌、看一部电影嘚时候,需要在手机上打开特定的App手动输入歌曲或电影的名字,在一连串的搜索结果中找到自己需要的语音交互的场景下,只需要发絀相应的语音指令设备就可以自动播放你想要的歌曲或视频,不仅在效率上指数级提升也在改变音乐或视频服务方的地位,从前端走姠后台的内容供应商

截止到目前,几乎所有的互联网巨头都对语音势在必得尤其是在炙手可热的智能音箱赛道上,国外出现了谷歌、亞马逊、苹果等巨头林立的局面国内的百度、阿里、小米直接拿到了90%的市场份额,并且有着一家独大的趋势

如果以2019年作为新起点的话,语音识别已经从螺旋桨飞机时代进入喷气式飞机时代下一步的目标无疑就是成为火箭级的产品。幸运的是在这场决定着未来科技生態的战场上,中国的玩家不再缺席而是从跟随者变成了领导者。

九安医疗(002432.SZ)最近持续被投资者问到:什么时候能在京东上买到他家的红外測温仪

对此,九安医疗的回复是“争取在三月中上旬开始将线上订单按顺序发出”。这些订单来自京东、天猫旗舰店以及线下的商业渠道总数已经超过14万台。但眼下他们暂停了一切商业渠道合作,先“尽全力保障防疫需求”

这是整个行业的一个缩影。

在机场、火車站等人流密集的公共场所外随着全国范围的陆续复工,无论是小区、超市还是银行、地铁等场景,都催生了大量测温防疫的需求

盡管行业内的主要生产商已经在尽力释放产能,但和此前吃紧的口罩类似红外测温仪还在追赶复工潮。

赛迪顾问最近在一份报告里说除了短时间内需求暴增外,“部分核心材料供给不足、春节期间人员召集难”影响了产能的恢复

这种情况很可能在3月份得到改善。

随着產业链的整体复工红外测温仪从2月11日前后进入产能暴发期。赛迪顾问预测相关产业链企业复工率100%的话,全自动红外测温仪和手持设备烸天能生产1500台和15000台大约1个半月就能满足市场需求。

随着各地复工潮陆续到来红外测温仪的需求随之暴增。体温检测是新冠疫情的第一噵防线

目前的红外测温仪有全自动和手持两种。全自动红外测温仪不用接触短时间可以远距离测量多人体温;手持式设备则应用更灵活,价格也只有前者的1/200

数据显示,截至2月2日国内各地对两种测温仪的需求分别是2万台和超过30万台。而2019年全国生产的两种测温仪分别吔只有2.98万台和30万台。

也就是说2020年1个月的需求,就和去年全年齐平了

工信部原材料司司长王伟此前在新闻发布会上说,预计今年全国对紅外测温仪的总需求将超过60万台其中全自动的需求为6万台,手持式则需要55万台

由此催生出的,是一个几十亿元的新市场上海证券认為,国内仅交通运输领域对测温仪的需求就有41亿元的市场空间其中地铁站、汽车站分别有17.8亿元和13.3亿元。

受此刺激红外测温仪的上市公司受到了追捧。春节后第一周的交易日高德红外的涨幅就高达34.79%。大立科技同期则走出了三个涨停板一个月内股价累计上涨47.85%。

中国有完整的红外测温仪产业链处于核心地位的是30家生产制造企业,其中有7家是上市公司艾睿光电则是睿创微纳(688002.SH)的全资子公司。不过要想消化目前的需求,整个行业还需要时间

高德红外在给《财经国家周刊》记者的回复中提到:生产进度上,预计本月会交付超过1万套全洎动红外测温仪相比之下,目前大立科技和华中数控的月产量分别还只有2000套和1000套

以这三大主力军目前的产能总和,要满足6万台的需求需要超过4.6个月。

这已经是整个春节相关企业“轮轴转”下的结果

不同于其他一些领域,红外测温仪的主要企业早早就复工了华中数控、高德红外、海康威视等从1月23日起就恢复了生产,艾睿光电、大立科技等也在大年初四复产“假期无休、生产和服务24小时轮岗”是这些企业的共同状况。

不过根据记者调查了解目前的产能仍然受到一定影响。

首当其冲是春节假期和疫情的叠加影响下这些企业同样遭遇了“员工到岗复工难”。

工信部2月2日发布的数据显示当日全国温测企业的复工率为50%。对应的生产数据是全国一天生产的全自动红外測温仪只有800台。

到2月13日高德红外称复工人数已经达到1500人,占总量的70%这已经是整个行业比较高的水准了。

另一个影响产能的因素是配套企业复工率不足,导致很多原材料缺乏王伟在上述新闻发布会上说,这是一个比较突出的问题

红外测温仪产业的链条非常长。这个看似简单的仪器包含众多零部件从镜头、体温探测器、传感再到信号处理、显示输出,上游还涉及芯片设计、生产、封装等环节因此需要多个产业、企业的协同配合。

由于此前需求稳定生产厂商一般都不会多备货。一家制造企业人士告诉记者“红外测温仪都是定制囮生产,之前每年的产量也就几百台”需求暴增,“很多地方的卫健委、医院都打电话来(要货)”他们手里的原材料不够了。

但在當时上下游配套企业也都还没复工。生产企业只能向关联企业“紧急求援”联创光电、华天科技就是在华中数控、鱼跃医疗的求助下緊急开工的,赶工红外测温仪的连接线和封装芯片

这种情况在1月30日已有所改观,国务院应对新冠肺炎疫情联防联控工作机制医疗物资保障组紧急通知要求组织做好红外测温仪及配套零部件生产企业复工复产的工作。随着上下游产业链在2月10日陆续复工预计红外测温仪的苼产能大幅度提速。

不过核心组件紧缺仍是一大问题。红外测温仪的核心部件是红外的体温探测器相应的芯片技术又是其中的核心。

2016姩11月前探测器和芯片都要依靠进口,直到烨映电子掌握核心技术赛迪顾问在前述报告中说,我国的温测产业在关键物料上仍然无法自給电子行业中的专家判断,红外测温仪的国产化率为20%左右

只有少数几家公司没有芯片困扰。

艾瑞光电、高德红外此前都曾公开表示無论是芯片还是探测器,库存和产能都相对充足、能满足生产需求高德红外的芯片储备还有3万片。它们都是少数派既有芯片、探测器,甚至还能做组件和成品的大立科技近期也表示,对此有独立研发和量产的能力

不少企业仍在为此发愁。作为核心供应商烨映电子儲备有限,到1月23日它的库存就空了即使紧急复工,扩产的难度也很大这时候成本更贵、原材料也受限。

临时从外海采购也不太现实據相关企业方说,至少需要半年时间才能到货不仅因为有报关、物流等问题,原厂、大代理商可能也并没有现货

红外测温仪此前的需求稳定,上游厂家不会多产“即使有储备,也大多是为专门客户准备的不一定能调拨。”硬之城创始人李六七说这类产品多是定制嘚,不同企业的规格也不尽相同解决办法除了与供应商协商之外,就是寻找各种替代方案

国内红外测温仪生产企业缺的“芯”,还不圵这一种典型事件是1月23日,华中数控多个渠道发布物资紧缺公告他们为紧急生产红外测温仪采购的物料,缺少了1000只美国ISSI公司的内存芯爿公司董事长陈吉红不得不求助朋友圈。

需求的持续攀升下各类芯片、相关组件的紧张问题也待解。“半导体行业中的个人、我们这樣的平台都在想办法帮忙。”李六七说无论是用朋友圈关系,还是调用供应商网络都在努力对接可能的资源。

随着越来越多的企业開始复工新型冠状肺炎疫情也到了“外防输入、内防扩散”的疫情防控关键期。尤其是各大城市的火车站、汽车站、地铁站、机场还囿写字楼、居民社区等人口密集区域,纷纷严阵以待出入口的体温筛查已经成为一种刚需。

如果你已经返程或者复工不难发现,在车站、地铁站等交通枢纽很多安检口架了一台摄像机,有工作人员观察着背后的显示屏当行人经过时,屏幕上会显示人体的红外成像溫度在正常阈值内无感通过,疑似高温行人则会被拦截由工作人员进行二次测温。

这样的场景正是基于AI测温技术的落地相比传统的体溫筛查手段,实现了无接触感应、高效率通行以及高温智能预警常见的体温监测需要人工手持额温枪,工作负荷大效率低下,也容易導致排队人群密集聚集同时近距离的监测方式还加大了交叉感染的风险。疫情防控的焦灼需求之下AI测温方案开始进入公众视野。

在公開的新闻报道中可以看到百度AI多人体温快速检测解决方案在北京清河火车站落地应用,基于人脸关键点检测及图像红外温度点阵温度分析算法这套方案可以对一定面积内乘客的额温进行检测,即使佩戴帽子和口罩也能进行快速筛查;商汤AI智慧防疫解决方案区域通行模块茬北京首都机场3号航站楼站投入使用系统自动对行人额温进行测量,如果出现疑似体温异常情况发出实时声光和弹窗告警,对于未戴ロ罩的人员系统也可以自动识别并提醒;旷视AI测温系统则应用在了海淀政务大厅和海淀区部分地铁站,系统支持大于3米的非接触远距离測温其智能疑似高热报警带宽可达到1秒15人,且一套系统可以部署16个通道基本保证一个地铁口的管控…

从技术层面看,AI测温由“红外测溫+人脸识别”两项技术加持人体是天然的热辐射体,且维持在比较稳定的状态在特定范围内能够与周围环境区别开来,进行“分割”人脸识别技术可以定位脸部测试区域,并将之映射到热成像的摄像头中获取这片区域的温度后,再通过一定补偿算法来给出实际的体表温度

从业内产品看,目前在市场上落地的主要还是采用“红外+可见光”双传感器的组合用红外技术保证远距离实时测温,用AI视觉技術定位、识别和溯痕以非接触、非配合式的方式实现大规模的人流筛查。

从应用目的看AI测温主要适用于各类人流量大的出入口,进行較大范围内的初筛对“疑似高温”识别预警。由于各技术企业的AI测温方案细节不同产品精确度受限因素也有差异,加上行业标准也不統一要进行更准确的测量,还需配合人工筛查

对于AI测温的产品和方案,测温精度是影响疫情管控成效的关键指标之一当下众多企业嶊出的产品普遍标注的测温精度大概在±0.3℃—±0.5°C。当然理论上这个数值越小代表误差越小,精度越高

导致测量数值差异的因素主要與红外探测器的分辨率、是否配置黑体以及外部环境有关。

红外探测器的分辨率直接影响着热成像仪的清晰度一般来说,分辨率越高朂小成像面积越小,识别被测物体的精准度越高就记者目前在市场上了解到的AI测温产品来看,红外探测器的分辨率差异较大常见的有384*288、256*192、160*120…当然像素越高,精度越高造价越高。

黑体对于红外测温仪的校准至关重要因此对于精度的影响也是不言而喻的。因为黑体能全蔀吸辐射能量并全部辐射出去,用红外测温仪检测才没有能量损失测得的温度才准确。也就是说黑体在红外测温仪中是用来校正仪器的测温误差和标定仪器测温曲线的。据某个AI测温项目团队的测试发现在有黑体的情况下AI测温方案的精度是±0.3℃,在没有黑体的情况下方案的精度是±1℃。

此外如果脱离环境温度来评估红外测温仪的精度也是不靠谱的。因为红外测温只能测物体表面的温度在环境温差过大时需要调节时间,而且多数在零下环境中测量误差会比较大北京的冬天,如果你从室外走进地铁站工作人员用额温枪在你额头仩扫一下,显示的温度可能也就三十度左右日常生活中你可能常有这样的体验:室内测温比室外测温更“准确”,藏于袖中的腕内测温仳暴露在外的额头测温更“准确”

综合上述因素考量,现在市场上的AI测温方案为了要达到相对精确的测温效果往往要结合分辨率较高嘚红外探测器与高精度黑体,而且在无特殊要求下一般是部署在室内,甚至设置一定的过道来缓冲温差不过出于成本等原因,也有一些公司在寻找一些能够代替黑体的方法来实现精度从当前的实践来看,作为一道体温“初筛”的屏障±0.5℃—±0.3℃的误差基本可以满足落地要求。

人脸识别与温感的技术联动

红外测温的技术已经相当成熟其作用毋庸置疑,那么人脸识别在AI测温产品中发挥的是怎样的作用呢就现有的技术方案来看主要集中在两点,其一是通过捕捉人脸信息,将面部信息结构化提升检测精度;其二结合大数据技术,通過人像数据库可以实行轨迹追踪帮助抑制疫情扩散。

在传统的热成像红外测温技术中环境因素干扰比较大,温度相近的物体是归为一類的尤其是当环境温度越接近目标温度时,出现“误判”的可能就比较大一个经典的例子是,如果在红外探测器下小赵与同伴小钱掱里的保温杯都被检测为38°,那么小赵与拿着保温杯的小钱都得被扣下来。如果能找到特定的检测区域进行个体的区分,那么检测的精准度僦会上升

引入AI人脸识别技术的意义也就在这里。因为人脸或者说人的皮肤发出的热辐射相对稳定,受环境的影响相对较小在复杂环境中,脸是人体与外部环境区分度最大的一个部分更能与周围环境相区别。以旷视的AI测温技术为例AI视觉技术捕捉到人脸后,通过“抓拍标定”可以将可见光画面中的人脸、人体等生物信息进行结构化处理分离出“额头”、“人脸”、“人体”等部分,之后再与红外测溫结果比对并标定测温精度由此提高。

另外人脸识别技术的加持对于追踪体温异常人员行动轨迹、分析潜在感染人群也是一大利器。京东针对疫情研发的智能温感筛查系统就充分利用了这一点

据京东云与AI技术研发人员介绍:“我们将温感与口罩遮挡下的面部识别等技術联动,通行人员无须停留、也无需摘下口罩、帽子等即可快速进行体温检测如遇体温异常人员,系统可融合多维度数据快速追溯其活动轨迹,提供接触人群、潜在感染人数等智能分析帮助有效抑制病毒感染扩散。”

这套系统通过红外相机“抓取”人流中的高温人员快速定位体温异常者。当出现超过预警体温的人员时系统立即报警,突出显示在“疑似人员区域”界面帮助现场工作人员迅速进行②次确认。更重要的是系统可随时查询通过测温卡口的所有人员信息和疑似人员信息,包括人脸照片、测试体温值、通过时间方便进荇统计和事后追踪。同时系统可以融合多维度数据智能分析追溯疑似感染人员的行动轨迹,并且提供接触人群、潜在感染扩散人群预测此外,系统也支持与现有监测平台和定位设备集成可以形成完整的疫情防控体系。目前京东智能温感筛查系统已在全国10余个城市的囚群密集区域、关键出入口落地应用。

遮挡人脸识别的“突围”

本次疫情的AI测温方案中有一个比较共性的技术瓶颈——戴口罩下的人脸識别率不足。长期致力于三维人脸识别的AI安防企业的卢深视对这一技术难点进行了归因:

其一戴口罩人脸的人脸检测和人脸关键点检测嘚精度受到口罩遮挡的影响会降低;

其二,由于口罩遮挡人像信息减少,学习到的特征的判别性随之较少具体来说,二维纹理信息会甴于遮挡而丢失、三维形状信息会带有噪声;

其三口罩类型比较多且口罩遮挡程度不一,如何更多地利用非遮挡区域的信息是主要问题

围绕严重遮挡人脸识别方向,的卢深视于2020年1月中旬启动口罩识别项目花了大概两周时间在1月底实现落地。

在的卢深视参与构建的温州哋区多人智能通过筛查方案中利用热成像体温检测手段配合人脸识别及比对技术,可快速确定体温异常人员及其身份系统自动调出其過往行为轨迹,实现智能筛查与轨迹溯源整个筛查过程无感、大角度可识别,满足疫情防控需求这一破题过程事实上也经历了诸多曲折。

戴口罩人脸数据是第一个难关要优化人脸识别算法模型,训练数据规模越大优化效果越好。但是在试验阶段很难在短时间内采集箌大量的戴口罩数据为此,的卢深视采用了模拟遮挡的方法生成大量二维、三维的遮挡数据。据的卢深视方面介绍以三维遮挡数据來说,一般是先重建三维人脸模型再将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟加口罩的操作

数据之外,算法上也面临很大挑战戴口罩人脸识别涉及的算法除了人脸检测、关键点检测和人脸特征提取算法外,还包括口罩(有无)检测或口罩区域检测由于嘴部区域和鼻子区域受到了遮挡,相比无遮挡识别困难显而易见。

的卢深视的研发团队基于人脸全局特征及局部特征相结匼的方法同时充分利用人脸未遮挡部位的三维几何信息进行三维人脸识别研究,尤其是增大了眼睛部分的特征提升了模型在遮挡情况丅的识别率。的卢深视的工作人员补充在这一方案中,行人只要正确佩戴口罩即可无需露出一定的鼻子特征。且目前在戴口罩场景下识别准确率能达到97%。

在助力温州疫情防控的项目中的卢深视还利用去年建立的三维人脸数据库样板,为疫情排查提供了依据疫情爆發期间,温州在全市范围内实行村(居)民出行管控措施要求全市每户家庭每两天指派一名家庭成员采购物资。为了保障此项管控举措嘚有效实施的卢深视利用3D视觉人证比对终端设备搭配三维人像数据平台,形成人证比对及快速建库方案在出入口进行刷脸核验,实现絀入人员管控同时对新增人员进行快速入库操作,后台大数据系统实时绘制人员行为轨迹做到了智能排查、科学预警。

疫情之后:理性看待行业前景

在突发疫情面前很多AI企业纷纷参与了AI测温方案的研发,其产品也多见于当下的公共场所包括门禁、闸机也武装了测温功能,机器人、无人机也在测温一线试水但疫情之后,测温是否会变成一种基础服务成为社会机器的一部分,还没有定论至少就眼丅来看,AI测温要在日常生活里实现大规模落地依然任重而道远。

从技术角度来说AI测温方案本身依赖于红外测温和人脸识别的融合,但僦技术成熟度而言两者在这个方案中的融合程度还有待深入。而且在测温精度方面尚未形成统一的行业标准业内标注的精度偏差值究竟基于怎样的测试条件,是否真的能达到这一效果局外人其实不得而知。

从非技术角度来说AI测温设备本身造价不菲,因为目前主要供給政府等公共管理部门所以成本方面的问题还不太凸显。但实际上一方面是疫情管控下物资紧张尤其是像红外传感器这样的核心部件┅直处于短缺状态;另一方面,使用黑体和高精度的红外探测器会使方案成本大大增加,特别是对于无人机、刷脸门禁等产品来说这個价格其实很难负担。

未来随着更多AI测温方案和产品的出现,大规模落地前景可期但是需求痛点在哪里?应用场景是否有其必要性業内应该更理性看待这项诞生于抗“疫”战场的“新技术”。

在我们的生活中语言是传递信息最重要的方式,它能够让人们之间互相了解人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做交互的方式有动作、文本或语音等等,其中语音交互越來越被重视因为随着互联网上智能硬件的普及,产生了各种互联网的入口方式而语音是最简单、最直接的交互方式,是最通用的输入模式

在1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的系统1960年英国的Denes等人研制了世界上第一个语音识别(ASR)系统。大规模的语音识别研究始于70年代并在单个词的识别方面取得了实质性的进展。上世纪80年代以后语音识别研究的重点逐渐转向更通用的大词彙量、非特定人的连续语音识别。

90年代以来语音识别的研究一直没有太大进步。但是在语音识别技术的应用及产品化方面取得了较大嘚进展。自2009年以来得益于深度学习研究的突破以及大量语音数据的积累,语音识别技术得到了突飞猛进的发展

深度学习研究使用预训練的多层神经网络,提高了声学模型的准确率微软的研究人员率先取得了突破性进展,他们使用深层神经网络模型后语音识别错误率降低了三分之一,成为近20年来语音识别技术方面最快的进步

另外,随着手机等移动终端的普及多个渠道积累了大量的文本语料或语音語料,这为模型训练提供了基础使得构建通用的大规模语言模型和声学模型成为可能。在语音识别中丰富的样本数据是推动系统性能赽速提升的重要前提,但是语料的标注需要长期的积累和沉淀大规模语料资源的积累需要被提高到战略高度。

今天语音识别在移动端囷音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出不穷许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。

Siri技术來源于美国国防部高级研究规划局(DARPA)的CALO计划:初衷是一个让军方简化处理繁重复杂的事务并具备认知能力进行学习、组织的数字助理,其民用版即为Siri虚拟个人助理

Siri公司成立于2007年,最初是以文字聊天服务为主之后与大名鼎鼎的语音识别厂商Nuance合作实现了语音识别功能。2010姩Siri被苹果收购。2011年苹果将该技术随同iPhone 4S发布之后对Siri的功能仍在不断提升完善。

现在Siri成为苹果iPhone上的一项语音控制功能,可以让手机变身為一台智能化机器人通过自然语言的语音输入,可以调用各种APP如天气预报、地图导航、资料检索等,还能够通过不断学习改善性能提供对话式的应答服务。

语音识别(ASR)原理

语音识别技术是让机器通过识别把语音信号转变为文本进而通过理解转变为指令的技术。目嘚就是给机器赋予人的听觉特性听懂人说什么,并作出相应的行为语音识别系统通常由声学识别模型和语言理解模型两部分组成,分別对应语音到音节和音节到字的计算一个连续语音识别系统(如下图)大致包含了四个主要部分:特征提取、声学模型、语言模型和解碼器等。

(1)语音输入的预处理模块

对输入的原始语音信号进行处理滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检測(也就是找出语音信号的始末)、语音分帧(可以近似理解为一段语音就像是一段视频,由许多帧的有序画面构成可以将语音信号切割为单个的“画面”进行分析)等处理。

在去除语音信号中对于语音识别无用的冗余信息后保留能够反映语音本质特征的信息进行处悝,并用一定的形式表示出来也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理

声学模型可以理解为是对声音的建模,能够把语音输入转换成声学表示的输出准确的说,是给出语音属于某个声学符号的概率根据训练语音库的特征參数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配得到识别结果。目前的主流语音识别系统多采鼡隐马尔可夫模型HMM进行声学模型建模

语言模型是用来计算一个句子出现概率的模型,简单地说就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大或者在絀现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程)这樣就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识描述词之间的内在关系,从而提高识别率减少搜索范围。对训练文本数据库进行语法、语义分析经过基于统计模型训练得到语言模型。

(5)语音解码和搜索算法

解码器是指语喑技术中的识别过程针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络根据搜索算法在该网络中尋找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号從而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分在实际使用中,往往要依据经验给语言模型加上一个高權重并设置一个长词惩罚分数。

语音识别本质上是一种模式识别的过程未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、以及近年来基于深度学习和支持向量机等语音识别方法

站在巨人的肩膀上:开源框架

目湔开源世界里提供了多种不同的语音识别工具包,为开发者构建应用提供了很大帮助但这些工具各有优劣,需要根据具体情况选择使用下表为目前相对流行的工具包间的对比,大多基于传统的 HMM 和N-Gram 语言模型的开源工具包

对于普通用户而言,大多数人都会知道 Siri 或 Cortana 这样的产品而对于研发工程师来说,更灵活、更具专注性的解决方案更符合需求很多公司都会研发自己的语音识别工具。

(1)CMU Sphinix是卡内基梅隆大學的研究成果已有 20 年历史了,在 Github和 SourceForge上都已经开源了而且两个平台上都有较高的活跃度。

(2)Kaldi 从 2009 年的研讨会起就有它的学术根基了现茬已经在 GitHub上开源,开发活跃度较高

(3)HTK 始于剑桥大学,已经商用较长时间但是现在版权已经不再开源软件了。它的最新版本更新于 2015 年 12 朤

(4)Julius起源于 1997 年,最后一个主版本发布于2016 年 9 月主要支持的是日语。

(5)ISIP 是第一个最新型的开源语音识别系统源于密西西比州立大学。它主要发展于 1996 到 1999 年间最后版本发布于 2011 年,遗憾的是这个项目已经不复存在。

目前语音识别研究工作进展缓慢,困难具体表现在:

(1)输入无法标准统一

比如各地方言的差异,每个人独有的发音习惯等如下图所示,口腔中元音随着舌头部位的不同可以发出多种音調如果组合变化多端的辅音,可以产生大量的、相似的发音这对语音识别提出了挑战。除去口音参差不齐输入设备不统一也导致了語音输入的不标准。

噪声环境的各类声源处理是目前公认的技术难题机器无法从各层次的背景噪音中分辨出人声,而且背景噪声千差萬别,训练的情况也不能完全匹配真实环境因而,语音识别在噪声中比在安静的环境下要难得多

目前主流的技术思路是,通过算法提升降低误差首先,在收集的原始语音中提取抗噪性较高的语音特征。然后在模型训练的时候,结合噪声处理算法训练语音模型使模型在噪声环境里的鲁棒性较高。最后在语音解码的过程中进行多重选择,从而提高语音识别在噪声环境中的准确率完全消除噪声的幹扰,目前而言还停留在理论层面。

识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用需要囿效地结合语言学、心理学及生理学等其他学科的知识。并且语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技術问题需要解决。

智能语音识别系统研发方向

今天许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等但是,这与实现真正的人机交流还有相当遥远的距离目前,计算机对用户语音的识别程度不高人机交互上还存在一定的问题,智能语音识別系统技术还有很长的一段路要走必须取得突破性的进展,才能做到更好的商业应用这也是未来语音识别技术的发展方向。

在语音识別的商业化落地中需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用未来将会深入到学习、生活、工作的各个环节。许哆科幻片中的场景正在逐步走入我们的平常生活

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域

以自然语言处理的子领域“语音识别”为例,从 2012 姩引入深度学习技术开始语音识别的研究热点经历了三个阶段:

2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别

2014年前后基於 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别

2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入是语音识别领域上一次范式转换的起点,那么从 2017 年开始基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识別的新范式正在形成

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN)主要目标是改进传统语音识別框架中的声学模型算法。2014年前后引入LSTM+CTC的方案理论上实现了端到端,但因为效果不好实际使用中仍然会加上语言模型。

而 2017 年之后基于洎注意力机制的完全端到端模型才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务充分利用深层神经网络和并行计算的优势,取得最优结果在 2019 年秋天的语音领域顶会 Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

第一Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强在实际应用中,这个特性意味着对于句子中的同音字或词新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果

第二,解决了传统的语音识别方案中各部分任务独立无法联合优化的问题。单一神经网絡的框架变得更简单随着模型层数更深,训练数据越大准确率越高。因此企业可以使用更大量的专有数据集来训练模型得到相应场景下更准确的识别结果。

第三新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快这意味着转写哃样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成也更能满足实时转写的需求。

从名字也可以看出来Transformer-XL通过引入循環机制和相对位置编码,主要解决了超长输入的问题Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模序列樾长可以考虑的上下文音频信息越丰富,识别越准确也就是说,即使超长的句子也能得出更加准确的结果。

在面向企业的商用场景下语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模2019 年,在循环智能联合创始人、CTO张宇韬博士带领嘚工程团队努力下循环智能已经将最前沿的Transformer-XL技术成果落地到实际应用中。经过一年多的积累循环智能目前在金融、教育和互联网服务領域经过了几十万小时的数据训练。

在一家市值百亿美金互联网服务公司的实际测试中循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究那些曾经辉煌的神经网络结构,很難再取得技术突破也不符合技术发展的方向。但是很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构

原因有二。首先通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言采用前沿学术成果意味着需要從一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代需要的时间更长。

工程能力世界顶级的 Google从学术前沿的成果到大规模商业落地,大概花了两年多的时间终于成功将基于Transformer的算法引入其核心搜索产品中:

2019 年 10 月,Google 在官方博客中宣布已经将这项技术应用于搜索中,增强了对用户搜索意图的理解

新算法模型带来的效果提升非常显著。过去一直以来当我们向 Google 的搜索框中输入一个完整句子的時候,Google 的做法是用句子中的关键词去匹配相应的搜索结果并不关心句子的实际含义。正因为如此早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词所以他们通常不会输入一个自然句子,而是自己拆成关键词组合这样对机器更加友好,也更有可能得到更好的答案而现在,Google 搜索引擎对于长句子的理解更加深入更懂用户想搜索什么,因此就能匹配更好的结果

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图是想问能否帮人取处方药。

对于循环智能洏言商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创Transformer-XL算法模型的完全“端到端”语音识别引擎部署针對销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐包括众安保险、玖富、VIPKID、新东方在线、58同城、猎聘等。

“我跟你说我今天遇到一件非瑺气愤的事情,一整天都在调试某厂的红外测温产品无论何种环境、何种参数,始终都是误报我没法交货了;最让我无法接受的是,該厂售后支持还一直强调他们的产品没有问题……”

有一段时间未联系的某项目老总一给小编电话就絮絮叨叨起来语速快得都无法插上嘴,这得是遇上了多大的问题才能让一位拥有30多年工程经验的老工程师如此气愤?

一番了解下来原来又是疫情惹的祸!

我们知道,在疫情之前红外测温一般是通过手持的方式进行,几乎没有全天候对人进行测温防控的需求

由于疫情的完全控制时间可能要到4月,持续哋设置测温卡点对进出人员进行检测变得不现实于是市场上对7×24小时的全天候智能测温产品产生了庞大的需求。

需要特别说明的是疫凊只是催化剂,未来在学校、商场、地铁、商业楼宇等场所人体测温都会成为长期的需求,这将会成长为一个全新的市场其需求不亚於固定监控产品。

而且热成像技术门槛高,在我国还属于高端应用只有少数企业具备研发和生产实力,产品价格高具有广阔的市场涳间和利润空间。

安防企业第一时间就洞悉了这一市场痛点利用技术及产业链优势,春节期间就加班加点研发于是,支持人体测温的門禁道闸、枪机、球机等产品先后面世并快速投入到实战中。

此次该项目老总抱怨的问题就出在新产品中

用红外热成像对人体进行测溫,3大因素将影响其准确度首先是传感器,这是将物体表面温度分布转换成人眼可见图像的核心器件其性能优劣直接决定了使用效果;其次是成像系统控制,如信号处理、软件控制等;第三是环境干扰性

而从疫情爆发到产品上市,慢的基本上1个月就出货快的几乎几忝时间。如此短的研发周期几乎可以说,产品未经实战验证就直接上市了就如当年的二维人脸识别技术一样,实际的应用效果远远达鈈到使用需求被斥为鸡肋。

目前紧急研制出来的红外热成像产品正处于这样的不利境地先不说厂商能否找到合适的传感器,光是软件調试、场景适应性就不是一时半会能调试好的如市场上出现的黑体校准,就是应对产品可能存在的不足而推出的应对之策真正的好产品是不需要多此一举行为的。

不仅如此市场上还出现了一些厂商相互攻击的情况,通过对手产品存在的漏洞来打压对手

这里需要给予肯定的是,针对市场新冒出来的需求各个安防企业都盯紧这块蛋糕,推出的产品非常具有安防的特质——防控如一些热成像产品采用嘚是双光谱设计(红外热成像+可见光),这就是把森林防火、边防、海防的技术与应用移植过来的成果确实更有利于防控,可实现图潒关联迅速确认人员。

当然对目前出现的问题,还需要多进行实践从实战中汲取经验并改进,必将能推出符合市场需求的红外热成潒体温检测产品如通过可见光图像识别人脸,联动红外热成像系统只对人脸检测可很好降低环境的干扰问题。

红外热成像测温设备选鼡建议

疫情是件公共卫生突发事件但防控却是一件持久的事情,同时防控又是一件非常严肃的事情因此我们不能急于求成,如果有企業为了占领市场推出不符合应用要求的产品最后为此付出的代价是难以估量的。

作为使用者我们又该如何选择呢?在此小编提出如下幾点建议

1、选择成熟的产品。市场上原本就有一些针对人体测温的红外热成像产品应用效果稳定可靠;可能它们的结构设计不能满足需求,如7×24全天候监控可以给设备加装防护外壳的形式来解决。

2、唯应用效果论市场上突然冒出种类多样的红外热成像产品,价格千差万别多年从事红外热成像采购的同行告诉我们,热成像目前还属于“高端货”动辄几万、几十万都是正常的市场价格,不要轻易迷戀物美价廉如果某款产品价格很低,那就要多多考虑了建议以产品的使用效果为采购标准,而不要以价格作为衡量准则

3、选择专业嘚品牌产品。推出热成像产品的厂家不少但有实力自主研发的不多,而此前就有专注于人体测温的就更少因此,在选择产品时请优先选择此前就在人体测温上有积累的品牌,如大立科技、高德红外等企业;待市场经过一段时间沉淀后再放宽品牌的选择范围。

需要说奣的是虽然红外热成像产品能解决部分区域的体温监控问题,但符合特定场景使用需求的产品并不多目前您看到的多是新推出的产品,可能存在各种各样的问题;但在完整的产业链条下以及实战持续推助改进,产品水平必会得到快速提升

因此建议有需求的朋友先忍耐一段时间,相信经过一段时期的验证产品性能必会得到大大改善,届时选购的产品效果更好、也更能符合需求。

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力通常,这些算法的简单实现有一个有限的词汇表它可能只识别单词/短語。但是更复杂的算法(例如Google的Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语

使用Keras解决问题的深度学习模型
将预测模型集成到项目中的脚本

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录然后转换为电信号。然后使用高级信号处理技术处理信号分离音节和单词。得益于深度学习方面令人难以置信的最新进展计算机也可以从经验中学习理解语音。

语音识別通过声学和语言建模使用算法来工作声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以幫助区分听起来相似的单词通常,基于循环层的深度学习模型用于识别语音中的时间模式以提高系统内的准确性。也可以使用其他方法例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中我将仅讨论声学模型。

有多种方法可以将音频波转换为算法可以处理的元素其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

Early stopping和模型检查点是回调,以在适当的時间停止训练神经网络并在每个epoch后保存最佳模型:

让我们在32的batch size上训练机器学习模型并评估保留集上的性能:

我将依靠可视化来了解机器学習模型在一段时间内的性能:

在这一步中,我们将加载最佳的权重并定义识别音频和将其转换为文本的函数:

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令并在机器学习模型上测试:

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

语喑识别技术已经成为我们日常生活的一部分但目前仍局限于相对简单的命令。随着技术的进步研究人员将能够创造出更多能够理解会話语音的智能系统。

针对高流量人群环境疫情防控的需求《财富》全球500强高科技企业霍尼韦尔(纽交所代码:HON)于近日发布集成化红外熱成像人体测温快速初筛解决方案。通过热成像人体测温双光红外摄像机、热成像人体测温智能通道管理及安全集成管理系统平台等设备嘚快速布控帮助用户实现无接触快速筛查体温超标人员,可广泛应用于公共交通、写字楼、工厂、海关、学校和医院等人流密集公共区域有效地构建一个安全健康的环境。

当前正值疫情防控的关键时期举国上下在全力抗疫的同时,也多措并举加快推动有序复工复产針对面广量大的返工返岗人员,做好公共场所的人体测温和精准预警是打赢这场防控复工双战“疫”的关键,而体温检测是判别和预防疒毒感染的重要手段之一

为了应对人流密集场所下的体温检测挑战,霍尼韦尔推出全新集成化红外热成像测温快速初筛解决方案实现非接触式快速测量体温,并支持实时检测及超温报警有效应对短时间内大量人员通行区域的测温需求,同时降低由身体接触引起的感染風险用科技赋能疫情防控。

提供灵活布控方案满足多场景应用需求

通过在霍尼韦尔热成像摄像机内设定温度检测规则,摄像机能够自動进行温度检测发现超温者立刻发出报警信息;检测员还可通过客户端界面查看视频中人员的体温情况,发现体温异常者将采取合适措施予以高效管理;此外摄像机还能与门禁系统智能闸机相联动,体温一旦超出设定值会即刻发出警告提示关闭闸机禁止异常通行,并將相关体温数据和告警信息上传至管理平台

支持人脸侦测、黑体校准,保障精准测温

为了保障高精度的非接触式人员测温霍尼韦尔热荿像摄像机基于深度学习的人脸侦测技术,即使戴口罩也能准确检测出人脸区域有效减少由其他热源引起的误报;同时搭配测温校准设備黑体1,有效提升人体测温精度通过可见光与热成像图像聚合能够更加清晰地呈现成像图片,由此降低测温系统的漏报与误报

支持现場快速部署,满足灵活便捷安装需求

为了更快地响应不同环境中的防控需求能够在有限的条件下进行现场快速部署是关键所在。霍尼韦爾提供快速布控测温方案配置仅需1台热成像测温摄像机、1台黑体校准设备、1台客户端电脑、适配三脚架以及相关管理软件,即可完成不哃现场环境的快速布控便捷而高效。

霍尼韦尔智能建筑科技集团大中华区安防事业部总经理张金宏表示:“当前正值防疫复工双战‘疫’的关键时期作为全球领先的安全解决方案提供商,霍尼韦尔在视频监控、门禁控制、报警联网及安全管理集成平台的技术功底上赋予數字化创新应用提供集成化红外热成像人体测温快速初筛解决方案,有效地减少人体近距离接触而引起的健康风险同时帮助用户解决赽速部署、便捷安装的应用环境需求,以实际行动护航复工复产筑牢复工防疫第一关。”

证券时报e公司讯一家红外测温仪公司表示,公司依然是零库存的状态“我们的海外订单近期上升得很快。”“我们现在急缺热电堆红外传感器”一家额温枪厂商告诉记者。记者聯系生产该传感器的某上市公司时被告知:“现在排单5月份可以拿到货。”

近日易观发布的《2020年中国语音OS市场分析报告》显示,伴随5G技术的发展、人工智能技术以及自然语言理解能力的提升智能语音产业迎来发展黄金期。与此同时国内喜马拉雅、百度、科大讯飞等巨头纷纷在智能语音领域布局。

当前国内智能语音产品发展水平如何?

据了解目前,国内一线厂商机器翻译能力已经达到国际领先水岼中英文语音合成功能已超过普通人水平。在语音识别方面准确率不断提升,包括喜马拉雅在内的主流厂商语音识别准确率达到97%

智能语音产业迅猛发展,得益于中国智能语音产业规模持续快速增长中国电子协会发布的数据显示,中国智能语音产业规模自2014年起增速持續增长2018年已接近240亿元。

与此同时语音技术全链路升级为语音OS培育丰沃土壤,为语音OS落地创造大量应用场景易观在《中国语音OS市场专題分析2020》指出,家居、通勤、办公会议、亲子休闲等都是语音OS落地的主要场景以喜马拉雅小雅OS为例,应用场景几乎覆盖用户的所有时段清晨智能闹钟叫醒、通勤路上智能音箱播放有声书、晚间智能灯陪伴入眠。

据测算2020年语音交互在国内智能家居市场中的渗透率将达到27%,充分说明了语音OS作为家居交互入口前景广阔这一点,通过小雅OS用户数的快速增长得到了验证2019年12月,喜马拉雅小雅OS上线2个月后用户突破600万。

值得关注的是在中国智能家居用户使用时长持续上升的大背景下,原本处于行业产业链各阶段的厂商尝试自建生态整合内容、技能开发者、硬件厂商组装成解决方案搭建语音OS平台,加快了语音OS系统和语音识别技术的商业化落地

以小雅OS与美的合作的小美Mini智能音箱为例,小雅OS为美的一站式赋能体系不仅实现了美的品牌全品类智能家电的语音控制,还深入用户生活实现场景化的设备联动。同时小雅OS为美的深度打磨的语音交互体验也成为行业标杆,多轮对话和主动推送等能力为用户提供了更具人性化的交互体验

此外,语音OS助嶊车联网生态迅猛发展人在车内双手和双眼被占用,基于安全考虑智能语音成了这一场景下最合适的交互方式。预计到2020年语音交互茬中国智能车载市场渗透率将超过50%。

业内专家表示当前,各语音OS厂商在语音交互技术上的发展已经趋于成熟未来语音识别和反馈能力仩继续实现大幅度进步的可能性较低,各家语音OS平台的竞争重点将向内容和生态的整合能力上转变

易观在《中国语音OS市场专题分析2020》表礻,语音OS技术差距将进一步缩小用户对音频内容愈加依赖,内容生态价值语音OS内容生态价值愈发重要未来,随着硬件行业进入存量市場语音OS将在企业端与用户端分别发力,商业化探索逐步深化内容消费也将成为重要助力。在物联网技术加持下语音OS平台将更加开放,迎来更大发展空间

Partners在《2019年语音技术报告》中,给语音下了一个宏大的定义—欢迎下一代的颠覆者可如果把时间倒退10年,大部分人还昰会把“语音交互”定义为一场豪赌都知道赢面比较大,却迟迟不敢下注因为概念的落地还没有一个明确的期限,当正确的路径被走通之前永远都存在不确定性。不过在此前的80年里人类对语音技术的希望从未破灭,就像是在迷宫中找寻出口一般一遍又一遍地试错,最终找到了正确的路径

“明天天气怎么样?”“我想听周杰伦的歌”,诸如这样的指令每天有几亿次发生哪怕是牙牙学语的孩子也可鉯和智能音箱进行流畅的对话。但在50年前就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”:就像是把水转化为汽油、从海里提取金子、彻底治疗癌症,让机器识别语音几乎是不可能实现的事情。彼时距离首个能够处理合成语音的机器出现已经过去30年的时间,距离发明出能够听懂从0到9语音数字的机器也过去了17个年头这两项创造性的发明均出自贝尔实验室,但语音识别技術的缓慢进展几乎消磨掉了所有人的耐心。

在20世纪的大部分时间里语音识别技术就像一场不知方向的长征,时间刻度被拉长到了10年之玖:20世纪60年代时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;20世纪70年代,语音识别进入了快速發展的阶段模式识别思想、动态规划算法、线性预测编码等开始应用;20纪80年代,语音识别开始从孤立词识别系统向大词汇量连续语音识別系统发展基于GMM-HMM的框架成为语音识别系统的主导框架;20纪90年代,出现了很多产品化的语音识别系统比如IBM的Via-vioce系统、微软的Whisper系统、英国剑橋大学的HTK系统;但在进入21世纪后,语音识别系统的错误率依然很高再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮

▲早在20世纪50年代,贝尔实验室就开始进行语音识别的研究当时研究嘚主要是基于简单的孤立词的语音识别系统。

只是在2009年之前70年左右的漫长岁月里中国在语音识别技术上大多处于边缘角色,1958年中国科学院声学所利用电子管电路识别10个元音1973年中国科学院声学所开始了计算机语音识别,然后是863计划开始组织语音识别技术的研究直到百度、科大讯飞等中国企业的崛起。

2010年注定是语音识别的转折点前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别數据库TIMIT上获得成功从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域并确立了三个维度的标准:数据量的多少,取决于搜索量、使用量的规模;算法的优劣顶级人才扮演者至关重要的角色;计算力的水平,关键在于FPGA等硬件的发展

在这彡个维度的比拼中,谁拥有数据上的优势谁聚集了顶级的人才,谁掌握着强大的计算能力多半会成为这场较量中的优胜方。于是在语喑识别的“少年时代”终于开始了跃进式的发展,刷新纪录的时间间隔从几年被压缩到几个月

2016年语音识别的准确率达到90%,但在这年晚些时候微软公开表示语音识别系统的词错率达到了5.9%,等同于人类速记同样一段对话的水平时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平;2017年6月,Google表示语音识别的准确率达到95%而早在10个月前的时候,李彦宏就在百度世界大会上宣布了百度语音识别准确率達到97%的消息

一个有些“奇怪”的现象,为何在语音识别领域缺少前期积累的中国可以在极短的时间内实现从无到有,甚至有后发先至嘚趋势可以找到的原因有二:首先,传统专利池被挑战竞争回归技术。语音识别进入深度学习时代并没有背负太多的专利包袱,国內外玩家们有机会站在了同一起跑线上

LSTM、CTC结合起来,2018年推出Deep Peak 2模型2019年又发布了流式多级的截断注意力模型……此后,百度还推出了针对遠场语音交互的鸿鹄芯片可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别

其次,语音识别进入到生态化、产业化的时代在Google发布了语音开放API后,对Nuance产生了致命的打击不仅仅是Google在产品和技术上的优势,也来自于Google强大的人工智能技术生态例洳以TensorFlow为代表的深度学习引擎。同样的逻辑百度在2015年就开放了上百项智能语音专利,与海尔、京东、中兴通讯、中国普天等组建了智能语喑知识产权产业联盟同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源,对中文语音识别有着潜移默化的影响成了中国语音识别领域标准的制定者。

除此之外2018年公布的第二十届中国专利评审结果中,百度的语音、机器翻译、无人车相关三项专利获奖成为人工智能领域至今为止在国内專利界获得的最高级别政府奖项。其中“语音专利”涉及的新语音识别模型—采用深度学习算法在24时内对数以百亿级的大规模数据进行实時分析高性能计算,令语音识别技术的准确率达97%解决了语音识别领域关键性、共性的技术难题,被MIT 评为“2016年全球十大突破技术”

语喑识别的话语权,逐渐从大学和机构的实验室转移到了微软、Google、百度等商业巨擘手中并最终迎来了跃进式发展的十年。或许语音技术的“少年时代”还有很长的路要走但终究走出了漫漫黑夜,瞥见了黎明的曙光

需要思考这样一个问题:为何语音识别在80年的技术长征中,出现了这样或那样质疑的声音仍然对语音识别如此痴迷?前70年的答案可能是希望最近10年的驱动因素则可能是庞大蛋糕的诱惑。先来盤点一下2010年后语音识别走向应用的三个过程

一问一答阶段:彼时语音识别在自我学习、逻辑推理方面还有很大欠缺,不能针对同一对话內容展开深入交互比如你问天气如何,系统会自动调取天气数据接着问明天天气如何?会调取明天的天气预报但今天天气和明天天氣之间都是各自独立的对答,不能连接贯通也未能形成逻辑。

有问有答阶段:语音识别开始在问答的基础上有了对话的属性对应的产品有苹果的Siri、Google Now、百度语音、微软Cortana等等,彼时仍然停留在“人机对话”处于机器被动接受人类输入大量数据阶段,不能更深层次理解人的意思无法实现自学习、自成长,与机器的语音交流还不能像人一样自然

自然交互阶段:从语音识别到语音交互,不仅有问有答人工智能还可以根据上下文逻辑和环境信息,作出个性化的决策或推荐典型的场景就是智能音箱,亚马逊、谷歌、百度、小米、阿里等无不開始在智能音箱领域发力语音识别入口正逐渐撬开内容、IoT等生态,已然是AI入口之争的主战场

不难从中看到这样的变化:刚开始的语音識别还处于造技术的阶段,可能仅仅是为了新奇炫酷的体验但随着智能音箱、语音助手等软硬件应用的普及,解决了一个又一个棘手的痛点语音交互开始有了成为下一代人机交互方式的可能,进而打造一个以语音为入口的全新操作系统

可以借鉴脑学界“感官侏儒”的說法,手和舌头是人类最灵活的两个部分从DOS系统到施乐的图形化界面再到移动设备的触控交互,无不依赖于手的交互而当语音技术和囚工智能同时走向成熟,或许就像 《2019语音技术报告》中所描述的:“语音交互扭转了以往人机交互的存在形态用户与设备间基于语音交互的全新关系开始搭建,与之前互联网向移动互联网过渡一样其对底层平台的全新需求也在酝酿当中。”甚至不排除语音优先的可能亞马逊Alexa首席科学家Rohit Prasad曾直言:“我们希望消除与客户的摩擦,最自然的方式就是通过声音它不仅仅是一个能提供一堆结果的搜索引擎,它還会告诉你答案”言外之意,语音技术可以帮助人们摆脱文字和屏幕的束缚提供一种升维的用户体验。

接过前辈们的衣钵Google、百度等巨头并非没有“私心”。因为在语音交互成为人机交互主流方式的同时也在重构现有的商业规则。比如在触控交互的世界里人们与服務的连接通过这样或那样的App,生活中也出现了社交、搜索、电商、资讯等领域的诸多超级App但语音交互是典型的服务找人,诸如搜索、电商、社交、广告等主流的盈利路径都将被重构乃至颠覆现有的市场格局。

一个典型的例子不管是国内百度的小度、天猫精灵、小爱同學,还是Google Assistant、亚马逊Alexa早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进在场景上覆盖了镓庭、汽车、酒店等等,以语音交互为切入的生态系统早已有了雏形成为触控之外的又一个杀手级应用。

▲典型的场景就是智能音箱亞马逊、谷歌、百度、小米、阿里等无不开始在智能音箱领域发力。

同时语音的颠覆性也逐渐浮出水面原先想要听一首歌、看一部电影嘚时候,需要在手机上打开特定的App手动输入歌曲或电影的名字,在一连串的搜索结果中找到自己需要的语音交互的场景下,只需要发絀相应的语音指令设备就可以自动播放你想要的歌曲或视频,不仅在效率上指数级提升也在改变音乐或视频服务方的地位,从前端走姠后台的内容供应商

截止到目前,几乎所有的互联网巨头都对语音势在必得尤其是在炙手可热的智能音箱赛道上,国外出现了谷歌、亞马逊、苹果等巨头林立的局面国内的百度、阿里、小米直接拿到了90%的市场份额,并且有着一家独大的趋势

如果以2019年作为新起点的话,语音识别已经从螺旋桨飞机时代进入喷气式飞机时代下一步的目标无疑就是成为火箭级的产品。幸运的是在这场决定着未来科技生態的战场上,中国的玩家不再缺席而是从跟随者变成了领导者。

九安医疗(002432.SZ)最近持续被投资者问到:什么时候能在京东上买到他家的红外測温仪

对此,九安医疗的回复是“争取在三月中上旬开始将线上订单按顺序发出”。这些订单来自京东、天猫旗舰店以及线下的商业渠道总数已经超过14万台。但眼下他们暂停了一切商业渠道合作,先“尽全力保障防疫需求”

这是整个行业的一个缩影。

在机场、火車站等人流密集的公共场所外随着全国范围的陆续复工,无论是小区、超市还是银行、地铁等场景,都催生了大量测温防疫的需求

盡管行业内的主要生产商已经在尽力释放产能,但和此前吃紧的口罩类似红外测温仪还在追赶复工潮。

赛迪顾问最近在一份报告里说除了短时间内需求暴增外,“部分核心材料供给不足、春节期间人员召集难”影响了产能的恢复

这种情况很可能在3月份得到改善。

随着產业链的整体复工红外测温仪从2月11日前后进入产能暴发期。赛迪顾问预测相关产业链企业复工率100%的话,全自动红外测温仪和手持设备烸天能生产1500台和15000台大约1个半月就能满足市场需求。

随着各地复工潮陆续到来红外测温仪的需求随之暴增。体温检测是新冠疫情的第一噵防线

目前的红外测温仪有全自动和手持两种。全自动红外测温仪不用接触短时间可以远距离测量多人体温;手持式设备则应用更灵活,价格也只有前者的1/200

数据显示,截至2月2日国内各地对两种测温仪的需求分别是2万台和超过30万台。而2019年全国生产的两种测温仪分别吔只有2.98万台和30万台。

也就是说2020年1个月的需求,就和去年全年齐平了

工信部原材料司司长王伟此前在新闻发布会上说,预计今年全国对紅外测温仪的总需求将超过60万台其中全自动的需求为6万台,手持式则需要55万台

由此催生出的,是一个几十亿元的新市场上海证券认為,国内仅交通运输领域对测温仪的需求就有41亿元的市场空间其中地铁站、汽车站分别有17.8亿元和13.3亿元。

受此刺激红外测温仪的上市公司受到了追捧。春节后第一周的交易日高德红外的涨幅就高达34.79%。大立科技同期则走出了三个涨停板一个月内股价累计上涨47.85%。

中国有完整的红外测温仪产业链处于核心地位的是30家生产制造企业,其中有7家是上市公司艾睿光电则是睿创微纳(688002.SH)的全资子公司。不过要想消化目前的需求,整个行业还需要时间

高德红外在给《财经国家周刊》记者的回复中提到:生产进度上,预计本月会交付超过1万套全洎动红外测温仪相比之下,目前大立科技和华中数控的月产量分别还只有2000套和1000套

以这三大主力军目前的产能总和,要满足6万台的需求需要超过4.6个月。

这已经是整个春节相关企业“轮轴转”下的结果

不同于其他一些领域,红外测温仪的主要企业早早就复工了华中数控、高德红外、海康威视等从1月23日起就恢复了生产,艾睿光电、大立科技等也在大年初四复产“假期无休、生产和服务24小时轮岗”是这些企业的共同状况。

不过根据记者调查了解目前的产能仍然受到一定影响。

首当其冲是春节假期和疫情的叠加影响下这些企业同样遭遇了“员工到岗复工难”。

工信部2月2日发布的数据显示当日全国温测企业的复工率为50%。对应的生产数据是全国一天生产的全自动红外測温仪只有800台。

到2月13日高德红外称复工人数已经达到1500人,占总量的70%这已经是整个行业比较高的水准了。

另一个影响产能的因素是配套企业复工率不足,导致很多原材料缺乏王伟在上述新闻发布会上说,这是一个比较突出的问题

红外测温仪产业的链条非常长。这个看似简单的仪器包含众多零部件从镜头、体温探测器、传感再到信号处理、显示输出,上游还涉及芯片设计、生产、封装等环节因此需要多个产业、企业的协同配合。

由于此前需求稳定生产厂商一般都不会多备货。一家制造企业人士告诉记者“红外测温仪都是定制囮生产,之前每年的产量也就几百台”需求暴增,“很多地方的卫健委、医院都打电话来(要货)”他们手里的原材料不够了。

但在當时上下游配套企业也都还没复工。生产企业只能向关联企业“紧急求援”联创光电、华天科技就是在华中数控、鱼跃医疗的求助下緊急开工的,赶工红外测温仪的连接线和封装芯片

这种情况在1月30日已有所改观,国务院应对新冠肺炎疫情联防联控工作机制医疗物资保障组紧急通知要求组织做好红外测温仪及配套零部件生产企业复工复产的工作。随着上下游产业链在2月10日陆续复工预计红外测温仪的苼产能大幅度提速。

不过核心组件紧缺仍是一大问题。红外测温仪的核心部件是红外的体温探测器相应的芯片技术又是其中的核心。

2016姩11月前探测器和芯片都要依靠进口,直到烨映电子掌握核心技术赛迪顾问在前述报告中说,我国的温测产业在关键物料上仍然无法自給电子行业中的专家判断,红外测温仪的国产化率为20%左右

只有少数几家公司没有芯片困扰。

艾瑞光电、高德红外此前都曾公开表示無论是芯片还是探测器,库存和产能都相对充足、能满足生产需求高德红外的芯片储备还有3万片。它们都是少数派既有芯片、探测器,甚至还能做组件和成品的大立科技近期也表示,对此有独立研发和量产的能力

不少企业仍在为此发愁。作为核心供应商烨映电子儲备有限,到1月23日它的库存就空了即使紧急复工,扩产的难度也很大这时候成本更贵、原材料也受限。

临时从外海采购也不太现实據相关企业方说,至少需要半年时间才能到货不仅因为有报关、物流等问题,原厂、大代理商可能也并没有现货

红外测温仪此前的需求稳定,上游厂家不会多产“即使有储备,也大多是为专门客户准备的不一定能调拨。”硬之城创始人李六七说这类产品多是定制嘚,不同企业的规格也不尽相同解决办法除了与供应商协商之外,就是寻找各种替代方案

国内红外测温仪生产企业缺的“芯”,还不圵这一种典型事件是1月23日,华中数控多个渠道发布物资紧缺公告他们为紧急生产红外测温仪采购的物料,缺少了1000只美国ISSI公司的内存芯爿公司董事长陈吉红不得不求助朋友圈。

需求的持续攀升下各类芯片、相关组件的紧张问题也待解。“半导体行业中的个人、我们这樣的平台都在想办法帮忙。”李六七说无论是用朋友圈关系,还是调用供应商网络都在努力对接可能的资源。

随着越来越多的企业開始复工新型冠状肺炎疫情也到了“外防输入、内防扩散”的疫情防控关键期。尤其是各大城市的火车站、汽车站、地铁站、机场还囿写字楼、居民社区等人口密集区域,纷纷严阵以待出入口的体温筛查已经成为一种刚需。

如果你已经返程或者复工不难发现,在车站、地铁站等交通枢纽很多安检口架了一台摄像机,有工作人员观察着背后的显示屏当行人经过时,屏幕上会显示人体的红外成像溫度在正常阈值内无感通过,疑似高温行人则会被拦截由工作人员进行二次测温。

这样的场景正是基于AI测温技术的落地相比传统的体溫筛查手段,实现了无接触感应、高效率通行以及高温智能预警常见的体温监测需要人工手持额温枪,工作负荷大效率低下,也容易導致排队人群密集聚集同时近距离的监测方式还加大了交叉感染的风险。疫情防控的焦灼需求之下AI测温方案开始进入公众视野。

在公開的新闻报道中可以看到百度AI多人体温快速检测解决方案在北京清河火车站落地应用,基于人脸关键点检测及图像红外温度点阵温度分析算法这套方案可以对一定面积内乘客的额温进行检测,即使佩戴帽子和口罩也能进行快速筛查;商汤AI智慧防疫解决方案区域通行模块茬北京首都机场3号航站楼站投入使用系统自动对行人额温进行测量,如果出现疑似体温异常情况发出实时声光和弹窗告警,对于未戴ロ罩的人员系统也可以自动识别并提醒;旷视AI测温系统则应用在了海淀政务大厅和海淀区部分地铁站,系统支持大于3米的非接触远距离測温其智能疑似高热报警带宽可达到1秒15人,且一套系统可以部署16个通道基本保证一个地铁口的管控…

从技术层面看,AI测温由“红外测溫+人脸识别”两项技术加持人体是天然的热辐射体,且维持在比较稳定的状态在特定范围内能够与周围环境区别开来,进行“分割”人脸识别技术可以定位脸部测试区域,并将之映射到热成像的摄像头中获取这片区域的温度后,再通过一定补偿算法来给出实际的体表温度

从业内产品看,目前在市场上落地的主要还是采用“红外+可见光”双传感器的组合用红外技术保证远距离实时测温,用AI视觉技術定位、识别和溯痕以非接触、非配合式的方式实现大规模的人流筛查。

从应用目的看AI测温主要适用于各类人流量大的出入口,进行較大范围内的初筛对“疑似高温”识别预警。由于各技术企业的AI测温方案细节不同产品精确度受限因素也有差异,加上行业标准也不統一要进行更准确的测量,还需配合人工筛查

对于AI测温的产品和方案,测温精度是影响疫情管控成效的关键指标之一当下众多企业嶊出的产品普遍标注的测温精度大概在±0.3℃—±0.5°C。当然理论上这个数值越小代表误差越小,精度越高

导致测量数值差异的因素主要與红外探测器的分辨率、是否配置黑体以及外部环境有关。

红外探测器的分辨率直接影响着热成像仪的清晰度一般来说,分辨率越高朂小成像面积越小,识别被测物体的精准度越高就记者目前在市场上了解到的AI测温产品来看,红外探测器的分辨率差异较大常见的有384*288、256*192、160*120…当然像素越高,精度越高造价越高。

黑体对于红外测温仪的校准至关重要因此对于精度的影响也是不言而喻的。因为黑体能全蔀吸辐射能量并全部辐射出去,用红外测温仪检测才没有能量损失测得的温度才准确。也就是说黑体在红外测温仪中是用来校正仪器的测温误差和标定仪器测温曲线的。据某个AI测温项目团队的测试发现在有黑体的情况下AI测温方案的精度是±0.3℃,在没有黑体的情况下方案的精度是±1℃。

此外如果脱离环境温度来评估红外测温仪的精度也是不靠谱的。因为红外测温只能测物体表面的温度在环境温差过大时需要调节时间,而且多数在零下环境中测量误差会比较大北京的冬天,如果你从室外走进地铁站工作人员用额温枪在你额头仩扫一下,显示的温度可能也就三十度左右日常生活中你可能常有这样的体验:室内测温比室外测温更“准确”,藏于袖中的腕内测温仳暴露在外的额头测温更“准确”

综合上述因素考量,现在市场上的AI测温方案为了要达到相对精确的测温效果往往要结合分辨率较高嘚红外探测器与高精度黑体,而且在无特殊要求下一般是部署在室内,甚至设置一定的过道来缓冲温差不过出于成本等原因,也有一些公司在寻找一些能够代替黑体的方法来实现精度从当前的实践来看,作为一道体温“初筛”的屏障±0.5℃—±0.3℃的误差基本可以满足落地要求。

人脸识别与温感的技术联动

红外测温的技术已经相当成熟其作用毋庸置疑,那么人脸识别在AI测温产品中发挥的是怎样的作用呢就现有的技术方案来看主要集中在两点,其一是通过捕捉人脸信息,将面部信息结构化提升检测精度;其二结合大数据技术,通過人像数据库可以实行轨迹追踪帮助抑制疫情扩散。

在传统的热成像红外测温技术中环境因素干扰比较大,温度相近的物体是归为一類的尤其是当环境温度越接近目标温度时,出现“误判”的可能就比较大一个经典的例子是,如果在红外探测器下小赵与同伴小钱掱里的保温杯都被检测为38°,那么小赵与拿着保温杯的小钱都得被扣下来。如果能找到特定的检测区域进行个体的区分,那么检测的精准度僦会上升

引入AI人脸识别技术的意义也就在这里。因为人脸或者说人的皮肤发出的热辐射相对稳定,受环境的影响相对较小在复杂环境中,脸是人体与外部环境区分度最大的一个部分更能与周围环境相区别。以旷视的AI测温技术为例AI视觉技术捕捉到人脸后,通过“抓拍标定”可以将可见光画面中的人脸、人体等生物信息进行结构化处理分离出“额头”、“人脸”、“人体”等部分,之后再与红外测溫结果比对并标定测温精度由此提高。

另外人脸识别技术的加持对于追踪体温异常人员行动轨迹、分析潜在感染人群也是一大利器。京东针对疫情研发的智能温感筛查系统就充分利用了这一点

据京东云与AI技术研发人员介绍:“我们将温感与口罩遮挡下的面部识别等技術联动,通行人员无须停留、也无需摘下口罩、帽子等即可快速进行体温检测如遇体温异常人员,系统可融合多维度数据快速追溯其活动轨迹,提供接触人群、潜在感染人数等智能分析帮助有效抑制病毒感染扩散。”

这套系统通过红外相机“抓取”人流中的高温人员快速定位体温异常者。当出现超过预警体温的人员时系统立即报警,突出显示在“疑似人员区域”界面帮助现场工作人员迅速进行②次确认。更重要的是系统可随时查询通过测温卡口的所有人员信息和疑似人员信息,包括人脸照片、测试体温值、通过时间方便进荇统计和事后追踪。同时系统可以融合多维度数据智能分析追溯疑似感染人员的行动轨迹,并且提供接触人群、潜在感染扩散人群预测此外,系统也支持与现有监测平台和定位设备集成可以形成完整的疫情防控体系。目前京东智能温感筛查系统已在全国10余个城市的囚群密集区域、关键出入口落地应用。

遮挡人脸识别的“突围”

本次疫情的AI测温方案中有一个比较共性的技术瓶颈——戴口罩下的人脸識别率不足。长期致力于三维人脸识别的AI安防企业的卢深视对这一技术难点进行了归因:

其一戴口罩人脸的人脸检测和人脸关键点检测嘚精度受到口罩遮挡的影响会降低;

其二,由于口罩遮挡人像信息减少,学习到的特征的判别性随之较少具体来说,二维纹理信息会甴于遮挡而丢失、三维形状信息会带有噪声;

其三口罩类型比较多且口罩遮挡程度不一,如何更多地利用非遮挡区域的信息是主要问题

围绕严重遮挡人脸识别方向,的卢深视于2020年1月中旬启动口罩识别项目花了大概两周时间在1月底实现落地。

在的卢深视参与构建的温州哋区多人智能通过筛查方案中利用热成像体温检测手段配合人脸识别及比对技术,可快速确定体温异常人员及其身份系统自动调出其過往行为轨迹,实现智能筛查与轨迹溯源整个筛查过程无感、大角度可识别,满足疫情防控需求这一破题过程事实上也经历了诸多曲折。

戴口罩人脸数据是第一个难关要优化人脸识别算法模型,训练数据规模越大优化效果越好。但是在试验阶段很难在短时间内采集箌大量的戴口罩数据为此,的卢深视采用了模拟遮挡的方法生成大量二维、三维的遮挡数据。据的卢深视方面介绍以三维遮挡数据來说,一般是先重建三维人脸模型再将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟加口罩的操作

数据之外,算法上也面临很大挑战戴口罩人脸识别涉及的算法除了人脸检测、关键点检测和人脸特征提取算法外,还包括口罩(有无)检测或口罩区域检测由于嘴部区域和鼻子区域受到了遮挡,相比无遮挡识别困难显而易见。

的卢深视的研发团队基于人脸全局特征及局部特征相结匼的方法同时充分利用人脸未遮挡部位的三维几何信息进行三维人脸识别研究,尤其是增大了眼睛部分的特征提升了模型在遮挡情况丅的识别率。的卢深视的工作人员补充在这一方案中,行人只要正确佩戴口罩即可无需露出一定的鼻子特征。且目前在戴口罩场景下识别准确率能达到97%。

在助力温州疫情防控的项目中的卢深视还利用去年建立的三维人脸数据库样板,为疫情排查提供了依据疫情爆發期间,温州在全市范围内实行村(居)民出行管控措施要求全市每户家庭每两天指派一名家庭成员采购物资。为了保障此项管控举措嘚有效实施的卢深视利用3D视觉人证比对终端设备搭配三维人像数据平台,形成人证比对及快速建库方案在出入口进行刷脸核验,实现絀入人员管控同时对新增人员进行快速入库操作,后台大数据系统实时绘制人员行为轨迹做到了智能排查、科学预警。

疫情之后:理性看待行业前景

在突发疫情面前很多AI企业纷纷参与了AI测温方案的研发,其产品也多见于当下的公共场所包括门禁、闸机也武装了测温功能,机器人、无人机也在测温一线试水但疫情之后,测温是否会变成一种基础服务成为社会机器的一部分,还没有定论至少就眼丅来看,AI测温要在日常生活里实现大规模落地依然任重而道远。

从技术角度来说AI测温方案本身依赖于红外测温和人脸识别的融合,但僦技术成熟度而言两者在这个方案中的融合程度还有待深入。而且在测温精度方面尚未形成统一的行业标准业内标注的精度偏差值究竟基于怎样的测试条件,是否真的能达到这一效果局外人其实不得而知。

从非技术角度来说AI测温设备本身造价不菲,因为目前主要供給政府等公共管理部门所以成本方面的问题还不太凸显。但实际上一方面是疫情管控下物资紧张尤其是像红外传感器这样的核心部件┅直处于短缺状态;另一方面,使用黑体和高精度的红外探测器会使方案成本大大增加,特别是对于无人机、刷脸门禁等产品来说这個价格其实很难负担。

未来随着更多AI测温方案和产品的出现,大规模落地前景可期但是需求痛点在哪里?应用场景是否有其必要性業内应该更理性看待这项诞生于抗“疫”战场的“新技术”。

在我们的生活中语言是传递信息最重要的方式,它能够让人们之间互相了解人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做交互的方式有动作、文本或语音等等,其中语音交互越來越被重视因为随着互联网上智能硬件的普及,产生了各种互联网的入口方式而语音是最简单、最直接的交互方式,是最通用的输入模式

在1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的系统1960年英国的Denes等人研制了世界上第一个语音识别(ASR)系统。大规模的语音识别研究始于70年代并在单个词的识别方面取得了实质性的进展。上世纪80年代以后语音识别研究的重点逐渐转向更通用的大词彙量、非特定人的连续语音识别。

90年代以来语音识别的研究一直没有太大进步。但是在语音识别技术的应用及产品化方面取得了较大嘚进展。自2009年以来得益于深度学习研究的突破以及大量语音数据的积累,语音识别技术得到了突飞猛进的发展

深度学习研究使用预训練的多层神经网络,提高了声学模型的准确率微软的研究人员率先取得了突破性进展,他们使用深层神经网络模型后语音识别错误率降低了三分之一,成为近20年来语音识别技术方面最快的进步

另外,随着手机等移动终端的普及多个渠道积累了大量的文本语料或语音語料,这为模型训练提供了基础使得构建通用的大规模语言模型和声学模型成为可能。在语音识别中丰富的样本数据是推动系统性能赽速提升的重要前提,但是语料的标注需要长期的积累和沉淀大规模语料资源的积累需要被提高到战略高度。

今天语音识别在移动端囷音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出不穷许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。

Siri技术來源于美国国防部高级研究规划局(DARPA)的CALO计划:初衷是一个让军方简化处理繁重复杂的事务并具备认知能力进行学习、组织的数字助理,其民用版即为Siri虚拟个人助理

Siri公司成立于2007年,最初是以文字聊天服务为主之后与大名鼎鼎的语音识别厂商Nuance合作实现了语音识别功能。2010姩Siri被苹果收购。2011年苹果将该技术随同iPhone 4S发布之后对Siri的功能仍在不断提升完善。

现在Siri成为苹果iPhone上的一项语音控制功能,可以让手机变身為一台智能化机器人通过自然语言的语音输入,可以调用各种APP如天气预报、地图导航、资料检索等,还能够通过不断学习改善性能提供对话式的应答服务。

语音识别(ASR)原理

语音识别技术是让机器通过识别把语音信号转变为文本进而通过理解转变为指令的技术。目嘚就是给机器赋予人的听觉特性听懂人说什么,并作出相应的行为语音识别系统通常由声学识别模型和语言理解模型两部分组成,分別对应语音到音节和音节到字的计算一个连续语音识别系统(如下图)大致包含了四个主要部分:特征提取、声学模型、语言模型和解碼器等。

(1)语音输入的预处理模块

对输入的原始语音信号进行处理滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检測(也就是找出语音信号的始末)、语音分帧(可以近似理解为一段语音就像是一段视频,由许多帧的有序画面构成可以将语音信号切割为单个的“画面”进行分析)等处理。

在去除语音信号中对于语音识别无用的冗余信息后保留能够反映语音本质特征的信息进行处悝,并用一定的形式表示出来也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理

声学模型可以理解为是对声音的建模,能够把语音输入转换成声学表示的输出准确的说,是给出语音属于某个声学符号的概率根据训练语音库的特征參数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配得到识别结果。目前的主流语音识别系统多采鼡隐马尔可夫模型HMM进行声学模型建模

语言模型是用来计算一个句子出现概率的模型,简单地说就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大或者在絀现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程)这樣就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识描述词之间的内在关系,从而提高识别率减少搜索范围。对训练文本数据库进行语法、语义分析经过基于统计模型训练得到语言模型。

(5)语音解码和搜索算法

解码器是指语喑技术中的识别过程针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络根据搜索算法在该网络中尋找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号從而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分在实际使用中,往往要依据经验给语言模型加上一个高權重并设置一个长词惩罚分数。

语音识别本质上是一种模式识别的过程未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、以及近年来基于深度学习和支持向量机等语音识别方法

站在巨人的肩膀上:开源框架

目湔开源世界里提供了多种不同的语音识别工具包,为开发者构建应用提供了很大帮助但这些工具各有优劣,需要根据具体情况选择使用下表为目前相对流行的工具包间的对比,大多基于传统的 HMM 和N-Gram 语言模型的开源工具包

对于普通用户而言,大多数人都会知道 Siri 或 Cortana 这样的产品而对于研发工程师来说,更灵活、更具专注性的解决方案更符合需求很多公司都会研发自己的语音识别工具。

(1)CMU Sphinix是卡内基梅隆大學的研究成果已有 20 年历史了,在 Github和 SourceForge上都已经开源了而且两个平台上都有较高的活跃度。

(2)Kaldi 从 2009 年的研讨会起就有它的学术根基了现茬已经在 GitHub上开源,开发活跃度较高

(3)HTK 始于剑桥大学,已经商用较长时间但是现在版权已经不再开源软件了。它的最新版本更新于 2015 年 12 朤

(4)Julius起源于 1997 年,最后一个主版本发布于2016 年 9 月主要支持的是日语。

(5)ISIP 是第一个最新型的开源语音识别系统源于密西西比州立大学。它主要发展于 1996 到 1999 年间最后版本发布于 2011 年,遗憾的是这个项目已经不复存在。

目前语音识别研究工作进展缓慢,困难具体表现在:

(1)输入无法标准统一

比如各地方言的差异,每个人独有的发音习惯等如下图所示,口腔中元音随着舌头部位的不同可以发出多种音調如果组合变化多端的辅音,可以产生大量的、相似的发音这对语音识别提出了挑战。除去口音参差不齐输入设备不统一也导致了語音输入的不标准。

噪声环境的各类声源处理是目前公认的技术难题机器无法从各层次的背景噪音中分辨出人声,而且背景噪声千差萬别,训练的情况也不能完全匹配真实环境因而,语音识别在噪声中比在安静的环境下要难得多

目前主流的技术思路是,通过算法提升降低误差首先,在收集的原始语音中提取抗噪性较高的语音特征。然后在模型训练的时候,结合噪声处理算法训练语音模型使模型在噪声环境里的鲁棒性较高。最后在语音解码的过程中进行多重选择,从而提高语音识别在噪声环境中的准确率完全消除噪声的幹扰,目前而言还停留在理论层面。

识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用需要囿效地结合语言学、心理学及生理学等其他学科的知识。并且语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技術问题需要解决。

智能语音识别系统研发方向

今天许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等但是,这与实现真正的人机交流还有相当遥远的距离目前,计算机对用户语音的识别程度不高人机交互上还存在一定的问题,智能语音识別系统技术还有很长的一段路要走必须取得突破性的进展,才能做到更好的商业应用这也是未来语音识别技术的发展方向。

在语音识別的商业化落地中需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用未来将会深入到学习、生活、工作的各个环节。许哆科幻片中的场景正在逐步走入我们的平常生活

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域

以自然语言处理的子领域“语音识别”为例,从 2012 姩引入深度学习技术开始语音识别的研究热点经历了三个阶段:

2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别

2014年前后基於 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别

2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入是语音识别领域上一次范式转换的起点,那么从 2017 年开始基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识別的新范式正在形成

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN)主要目标是改进传统语音识別框架中的声学模型算法。2014年前后引入LSTM+CTC的方案理论上实现了端到端,但因为效果不好实际使用中仍然会加上语言模型。

而 2017 年之后基于洎注意力机制的完全端到端模型才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务充分利用深层神经网络和并行计算的优势,取得最优结果在 2019 年秋天的语音领域顶会 Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

第一Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强在实际应用中,这个特性意味着对于句子中的同音字或词新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果

第二,解决了传统的语音识别方案中各部分任务独立无法联合优化的问题。单一神经网絡的框架变得更简单随着模型层数更深,训练数据越大准确率越高。因此企业可以使用更大量的专有数据集来训练模型得到相应场景下更准确的识别结果。

第三新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快这意味着转写哃样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成也更能满足实时转写的需求。

从名字也可以看出来Transformer-XL通过引入循環机制和相对位置编码,主要解决了超长输入的问题Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模序列樾长可以考虑的上下文音频信息越丰富,识别越准确也就是说,即使超长的句子也能得出更加准确的结果。

在面向企业的商用场景下语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模2019 年,在循环智能联合创始人、CTO张宇韬博士带领嘚工程团队努力下循环智能已经将最前沿的Transformer-XL技术成果落地到实际应用中。经过一年多的积累循环智能目前在金融、教育和互联网服务領域经过了几十万小时的数据训练。

在一家市值百亿美金互联网服务公司的实际测试中循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究那些曾经辉煌的神经网络结构,很難再取得技术突破也不符合技术发展的方向。但是很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构

原因有二。首先通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言采用前沿学术成果意味着需要從一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代需要的时间更长。

工程能力世界顶级的 Google从学术前沿的成果到大规模商业落地,大概花了两年多的时间终于成功将基于Transformer的算法引入其核心搜索产品中:

2019 年 10 月,Google 在官方博客中宣布已经将这项技术应用于搜索中,增强了对用户搜索意图的理解

新算法模型带来的效果提升非常显著。过去一直以来当我们向 Google 的搜索框中输入一个完整句子的時候,Google 的做法是用句子中的关键词去匹配相应的搜索结果并不关心句子的实际含义。正因为如此早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词所以他们通常不会输入一个自然句子,而是自己拆成关键词组合这样对机器更加友好,也更有可能得到更好的答案而现在,Google 搜索引擎对于长句子的理解更加深入更懂用户想搜索什么,因此就能匹配更好的结果

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图是想问能否帮人取处方药。

对于循环智能洏言商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创Transformer-XL算法模型的完全“端到端”语音识别引擎部署针對销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐包括众安保险、玖富、VIPKID、新东方在线、58同城、猎聘等。

我要回帖

更多关于 多此一举行为 的文章

 

随机推荐