logo
当前位置: 首页 > 新闻动态 > 公司新闻 >

国际期货理财

时间:2019-03-19 16:31   来源:合肥广电网    作者:admin    点击:

2018年1月3日,微软亚洲研究院的r-net在SQUAD EM值82.650中处于领先地位,这意味着它在ExactMatch指标中首次超过2016年人类设定的82.304.新智元采访了MSRA周明团队第一次,并为读者详细解释了EM和F1。它超越了人类的特定内涵。 NL 国际期货理财 P的核心问题是中国最难突破的自然语言处理技术的发展现状。还有很多话题,比如未来展望。

在2018年1月3日,微软亚洲研究院的r-net率先在SQUAD机器阅读理解挑战中达到82.650,这意味着它在ExactMatch指标中首次超过了人类在2016年设定的82.304。

国际期货理财

值得注意的是,1月5日阿里巴巴数据科学与技术研究所提交的IDST的EM分数为82.44。虽然它略低于微软亚洲研究院的r-net,但它也超过了人类的分数。腾讯NLP团队提交的模型得到了密切关注,令人满意。

国际期货理财

注:官方网站截图时间为1月16日,18日

在前十名中,我们看到了中国队的“霸权”:

并列第一名:阿里巴巴iDST NLP,微软亚洲研究院

并行2:微软亚洲研究院,腾讯DPDAC NLP

第五名:微软亚洲研究院

捆绑6:阿里巴巴iDST NLP

第7期:科达勋飞和哈尔滨工业大学联合实验室

中国自然语言处理领域的研究机构,包括微软亚洲研究院,阿里巴巴,腾讯,科达迅飞,哈尔滨工业大学等,已率先进入SQUAD机器阅读理解大赛前10名。

中国人工智能力量的崛起,积极推动了自然语言理解的进步。

正如微软亚洲研究院副院长周明在朋友圈中所评论的那样:祝贺中国的自然语言理解研究一直走在世界的前列!虽然很开心,但我更了解理解自然语言的漫长道路,需要继续努力。

国际期货理财

辛志远第一次采访了周明老师的团队。周先生和MSRA Wei Furu的高级研究员耐心地回答了许多问题并讨论了大量的技术干货。以下是精彩的内容。注:周某回应周明老师,魏伟福分析。

什么是EM和F1值?什么是合奏?模型和单一模型有什么区别?

魏:SQuAD竞赛中有两个评估指标EM和F1。

EM(完全匹配)要求系统给出的答案和人的注释答案完全匹配(为了删除标点符号和文章: a,an,),完全匹配是否为1分。

F1基于系统给出的答案与人的注释答案之间的一致程度,即单词级别的正确性和召回率的调和平均值,计算0到1之间的分数。

例如,假设问题的答案是“Denver Broncos”。系统仅提供与注释答案完全匹配的输出(即“Denver Broncos”),EM将获得1分,否则将不会得分。

对于F1,即使系统输出的答案与人的答案不完全相同,例如,系统输出“野马”。虽然EM得分为0,但它将获得F1评价指数(0.67)的部分得分。 。

EM是一个要求更高的评估指标,也是MSRA第一次超过SQUAD的结果。

模型集成(集成)是提高系统性能的常用方法。由于神经网络模型和训练过程的初始化是随机的,因此当在相同数据上多次训练时,相同的算法将获得不同的模型。

模型集成是对多个单一模型的训练,然后将这些单个模型的输出结合起来得到最终结果。

集成模型通常比单个模型表现更好,但代价是系统响应能力和计算资源。在实践中,需要在模型效果和模型效率(更好和更快)之间取得平衡。

超越人类的具体含义是什么?

国际期货理财

Wei:SQuAD对测试数据集的每个问题至少有三个答案(至少有3个人对每个问题都有答案)。 SQuAD将使用第二个答案作为人物预测,将剩余答案作为标准答案。

对于EM指标,预测答案与任何标准答案相同。对于F1指标,选择所有标准答案中的最高分数作为分数。这给出了人的EM得分(82.304)和F1得分(91.221)。

周:在16年的比赛开始时,我们的微软亚洲研究院几乎提交了所有模型。在2017年底,我们的分数82.136非常接近人类标准,只有0.17分。这次我们模型的EM值达到82.650,超过了人类在0.3分的准确答案。简单来说,你可以用这种方式理解这些0.3分。我们的系统为执行这组问题的人提供了30多个问题。

分享到:



备案号:粤ICP备15043628号
快速通道