百度AI算法ERNIE在通用语言理解评估测试钟表现如何?
百度AI算法ERNIE在通用语言理解评估测试中的表现引人注目,根据《麻S理工科技评论》(MIT Technology Review)的报道,百度在本月初的一场人工智能竞争中,成功击败了微软和谷歌,具体而言,百度的ERNIE算法在通用语言理解评估测试(General Language Understanding Evaluation,GLUE)中展现了优越的性能,领先于其竞争对手。 GLUE是评估AI系统理解人类语言能力的重要标准,由九种不同测试组成,涵盖了理解句子中的人名、组织名以及处理代词“it”在多重先行词中的含义等任务,一个在GLUE测试中获得高分的语言模型通常能够处理复杂的阅读理解任务,以往最高的满分为100分,曾有模型在GLUE测试中取得了87分的平均成绩,而这次,百度凭借ERNIE模型首次在该测试中取得超过90分的突破性成绩。 值得一提的是,GLUE测试的公开排行榜持续更新,其他团队可能很快就会超越百度,但百度的这一成就无疑体现了AI研究的巨大价值,百度的研究人员开发了专门针对中文的技术来构建ERNIE模型,这一技术不仅提升了对中文的理解能力,更意外地也增强了对英语的理解能力。 在Transformer的双向编码器表示(BERT)问世前,自然语言模型主要擅长预测句子中的下一个单词,这使得它们在自动完成功能上表现出色,但在更复杂的意义理解方面存在明显不足,它们无法准确理解“it”这个代词在多重先行词中的具体含义。 BERT的引入彻底改变了这一局面,相比于之前只能单向考虑上下文的模型,BERT采用了双向编码器的方式,能够同时考虑单词前后的上下文信息,在预测缺失片段时,BERT采用了掩码技术,随机隐藏文本中的15%单词,然后从剩余的单词中进行预测,这种双向处理方式使得模型能够更准确地捕捉语义信息。 百度研究人员在开发自己的语言模型时,自然而然地沿袭了掩码技术的思路,但他们很快意识到,中文和英语在语义编码方式上存在显著差异,在英语中,单词通常是独立的语义单元,即使完全脱离上下文,单个单词也仍然保留其含义,中文则截然不同,许多字符只有在特定的组合中才能发挥意义。“灵”可以代表“机灵”或“灵魂”,而如果单独分开,专有名词中的字符(如“波士顿”或“美国”)也会失去其特定含义。 针对这些特点,百度的研究人员开发了新版本的掩码技术,能够隐藏整个字符串而不是单个字符,通过专门训练模型区分有意义的字符串和随机字符串,ERNIE在预测缺失片段方面表现出色,这一技术不仅提升了对中文文本的理解能力,也为从文本中进行翻译和信息检索等应用提供了更强大的支持。 研究人员还发现,这种方法同样适用于英语语言,英语中的专有名词和复杂表达式(如“Harry Potter”或“chip off the old block”)也需要在特定的语义组合中才能被正确理解,这使得ERNIE在处理这些复杂语义关系方面表现出色。
西格玛(erniesigma)是德国著名码表品牌,也是中国大陆知名度最高、适用率最广的码表品牌,它以外形含蓄、做工精细而闻名,在欧洲,几乎2/3的环法自行车赛选手选择西格玛品牌,这不仅体现了品牌在欧洲S场的高人气,更反映了其结合德国高科技与创新设计的卓越品质,西格玛品牌在实验室中以最严格的标准检测产品,确保生产线所有产品的品质,成为业界公认的不良率最低之品牌码表。