|
麻将胡了官方棋牌软件 麻将胡了2官方网站|美国CERANETWORK超清|微软最强麻将AI首次公开技术发布时间: 2023-08-26 10:07:14 麻将胡了平台ღ◈✿,麻将胡了ღ◈✿。麻将比赛ღ◈✿。麻将胡了2手机版APP下载ღ◈✿。麻将胡了官方麻将胡了2ღ◈✿。智东西4月3日消息ღ◈✿,微软公司于去年8月推出了一个名为Suphx的麻将人工智能系统ღ◈✿,并在麻将游戏社区Tenhou中对其进行测试ღ◈✿。据悉ღ◈✿,Tenhou是世界上最大的麻将社区之一美国CERANETWORK超清ღ◈✿,拥有超过35万活跃用户ღ◈✿。 根据测试结果麻将胡了2官方网站ღ◈✿,Suphx最高成绩为10段ღ◈✿。这是目前为止ღ◈✿,世界上第一个也是唯一一个达到10段水平的人工智能ღ◈✿。Tenhou社区中的人类玩家也证实Suphx具有超强学习能力ღ◈✿,99.99%的玩家认为模型经过训练后表现有所改善美国CERANETWORK超清ღ◈✿。
每一局麻将又包含许多回合ღ◈✿。一局游戏的胜负是由累积回合分数决定的ღ◈✿,输掉一圈并不意味着玩家满盘皆输ღ◈✿。为了保证最后胜出ღ◈✿,玩家有可能会故意输掉一局ღ◈✿。 另外ღ◈✿,麻将游戏的“胡牌”方式非常多ღ◈✿。不同的“胡牌”方式下ღ◈✿,牌面也有很大不同ღ◈✿。相应地ღ◈✿,每回合游戏的得分也就不同美国CERANETWORK超清麻将胡了2官方网站ღ◈✿。 所谓不完全信息博弈ღ◈✿,是指参与者并不了解博弈的全部情况ღ◈✿。在麻将游戏中ღ◈✿,每位玩家手中最多有13张别人不可见的牌ღ◈✿。牌墙中的14张牌对所有玩家都不可见ღ◈✿。此外ღ◈✿,牌桌中央还有70张牌ღ◈✿。只有被玩家摸回或打出时ღ◈✿,这部分牌的牌面才可见ღ◈✿。 在这种规则下ღ◈✿,玩家每做出一个选择ღ◈✿,接下来的牌局就可能出现10个以上的走向ღ◈✿。玩家很难仅仅依据自己手中的牌来判断接下来的动作ღ◈✿,而是要经过仔细的思考与权衡ღ◈✿。
在微软的研究中ღ◈✿,研究人员选择用日本4人麻将(Riichi Mahjong)规则训练Suphx模型ღ◈✿,训练数据来自Tenhou社区ღ◈✿。 深度卷积神经网络(deep convolutional neural networks)曾在围棋ღ◈✿、象棋等游戏中应用ღ◈✿,其强大的表示能力已经得到了验证美国CERANETWORK超清ღ◈✿。Suphx也选择深度卷积神经网络作为原型ღ◈✿。 不同于棋类游戏的是ღ◈✿,麻将玩家获得的信息并不是自然的图像格式ღ◈✿。为此麻将胡了2官方网站ღ◈✿,研究人员设计了一套特征ღ◈✿,将观察到的信息编码为深度卷积神经系统能理解的形式ღ◈✿。 研究人员把每位玩家的私有牌编码成4个频道ღ◈✿。图示有4行34列ღ◈✿,每一行对应一个频道ღ◈✿,每一列对应一种牌ღ◈✿。第n个通道中的第m列表示玩家手中有n个m类型的牌ღ◈✿。每种牌都可被表示为一个34维向量ღ◈✿。
同时美国CERANETWORK超清ღ◈✿,研究人员还降低了计算复杂程度ღ◈✿:规定执行深度搜索时优先找到可能的赢家ღ◈✿;Suphx不考虑对手的行为ღ◈✿,只专注于寻找可能获胜的牌面ღ◈✿。
Suphx学习了5种模式来处理不同的情况ღ◈✿。分别是ღ◈✿:弃牌(discard)模式ღ◈✿、Riichi模式ღ◈✿、Chow模式ღ◈✿、Pong模式和Kong模式ღ◈✿。
所有模式都用网络结构表示ღ◈✿。弃牌模式对应34张牌ღ◈✿,有34个输出神经元ღ◈✿。其他模式仅有两个输出神经元ღ◈✿,分别对应执行或不执行操作ღ◈✿。
全局奖励预测器(GRU网络)ღ◈✿。该预测器可以提前预测游戏的最终结局ღ◈✿,提供有效的学习信号ღ◈✿,从而使策略网络可执行ღ◈✿。
Oracle代理美国CERANETWORK超清ღ◈✿。一个强大的作弊软件ღ◈✿,可以帮助玩家看到对家的牌面美国CERANETWORK超清ღ◈✿。在Suphx的模型学习过程中ღ◈✿,研究人员剔除了Oracle代理的一部分功能ღ◈✿,使其变成一个普通代理ღ◈✿、只能输入可见信息ღ◈✿。相比标准的深度学习过程ღ◈✿,利用Oracle代理进行训练加速了模型的学习过程ღ◈✿。 参数化的蒙特卡罗策略自适应算法(pMCPA)美国CERANETWORK超清ღ◈✿。复杂的麻将规则导致了不规则的游戏树ღ◈✿,阻碍了蒙特卡洛树搜索技术的应用ღ◈✿。为了解决这一问题ღ◈✿,研究人员引入了参数化的蒙特卡罗策略自适应算法(pMCPA)ღ◈✿。pMCPA会不断调整离线学习策略ღ◈✿,使其能适应突发的游戏情节(比如4个玩家丢弃了公共牌)ღ◈✿。 Suphx利用了一个基于规则的胜负评判模型ღ◈✿。该模型可以检查其他玩家打出的牌及牌强中的牌能否组成获胜牌面ღ◈✿。假设组成了获胜牌面ღ◈✿,模型就根据以下规则做出判定ღ◈✿: 如果这是游戏的最后一轮ღ◈✿,但是当前玩家的累积总分在四位玩家中最少ღ◈✿,则不宣布ღ◈✿。反之ღ◈✿,宣布当前玩家这一轮赢ღ◈✿。 在游戏中ღ◈✿,需要麻将玩家采取行动的情形有两种ღ◈✿:从牌墙中取牌和打出牌ღ◈✿。对于Suphx来说也一样ღ◈✿。
从牌墙中抽牌时ღ◈✿,如果Suphx抽到的牌可以与其私有牌凑成获胜牌面ღ◈✿,则由胜负评判模型判定是否获胜ღ◈✿。如果获胜ღ◈✿,就结束一轮游戏ღ◈✿。 如果抽取的牌可以与私有牌凑成Kong的牌面(ClosedKong或AddKong)ღ◈✿,kong模式将决定凑成哪一种牌面ღ◈✿。如果是ClosedKongღ◈✿,关闭Kong操作ღ◈✿,退回抽牌步骤ღ◈✿;如果是AddKongღ◈✿,其他玩家就可以使用ღ◈✿。 如果凑不成Kongღ◈✿,就进行Riichi步骤ღ◈✿。在私有牌可以排列出Riichi牌面的前提下ღ◈✿,Riichi模式决定是否声明这一结果ღ◈✿。如果不声明麻将胡了2官方网站ღ◈✿,直接转到弃牌步骤ღ◈✿;如果声明ღ◈✿,在声明后转到弃牌步骤ღ◈✿。 另外一种情况是其他玩家弃牌ღ◈✿。如果Suphx可以用弃牌与私有牌组成获胜牌面ღ◈✿,则由评判模型判定ღ◈✿。模型判定获胜ღ◈✿,游戏结束ღ◈✿。模型判定失败ღ◈✿,Suphx会尝试组成Chowღ◈✿、Pong或Kong牌面ღ◈✿。如果无法组成这三种牌面ღ◈✿,就轮到其他玩家行动ღ◈✿。 在Tenhou平台上有两种游戏室ღ◈✿,分别是专家室和凤凰室ღ◈✿。专家室对人工智能和4段及以上的人类玩家开放ღ◈✿;凤凰室只接受7段以上的人类玩家ღ◈✿。根据这项规定ღ◈✿,研究人员在专家室对Suphx进行了评估ღ◈✿。 在专家室中ღ◈✿,Suphx进行了5760次游戏ღ◈✿,最高记录是10段(dan)ღ◈✿,平均成绩是8.74段ღ◈✿。而根据Tenhou平台统计ღ◈✿,在其35万用户之中ღ◈✿,能达到10段水平的玩家仅有180人ღ◈✿。
在论文中ღ◈✿,研究人员称Suphx在防御方面“非常强大”ღ◈✿。它开发出了自己的玩法ღ◈✿,能够在保证己方私有牌安全的情况下取胜ღ◈✿。 经过学习ღ◈✿,Suphx模型能够掌握麻将游戏的规则并在游戏中取得较好成绩ღ◈✿,这说明了它具有超强的学习能力ღ◈✿。 研究人员认为ღ◈✿,这种学习能力可以在许多其他领域发挥作用ღ◈✿。比如在企业的运营中ღ◈✿,Suphx可以帮助处理普通但是占用认知的任务ღ◈✿,从而解放员工生产力ღ◈✿。 除此以外ღ◈✿,该模型或能用于金融预测ღ◈✿。论文中写道ღ◈✿:“金融市场预测和逻辑优化等现实世界中的大多数问题都与麻将具有相同的特征ღ◈✿,即规则复杂麻将胡了2官方网站ღ◈✿、信息不完善ღ◈✿。”因此麻将胡了2官方网站ღ◈✿,Suphx模型对于现实世界具有“巨大的应用潜力”ღ◈✿。 论文中写道ღ◈✿:“展望未来ღ◈✿,我们将向Suphx引进更多新技术ღ◈✿,并继续推进麻将人工智能和不完全信息博弈游戏的前沿研究ღ◈✿。” ![]() |