蒙特卡洛树搜索(MCTS)中的扩展(Expansion)和模拟(Simulation)
Better-1:
拓展是只拓展一个还是多个?
【无聊问题之】DQN算法为什么要使用两个网络(主网络和目标网络)
vickHe:
这个不是价值函数吗,为什么通常成为policy_net,不应该是value_net吗
Explained variance(解释方差)
黄振301:
λi应该是第i个主要成分的方差,才对怎么会是这个主要成分的特征值除以特征值总和
强化学习PPO算法中的returns(回报)、deltas(TD误差) 和 advantages(优势)
xk_99:
请问作者大大,Actor网络更新的时候应该使用Return还是Advantage进行更新呀
Pandas DataFrame合并a列相同的项,并将相应b列的字符串相加
qq_41050468:
如果还有个c列不需要拼接,只需要保持原样可以怎么写啊,这个方法会把出去a,b列以外的所有列都去掉