Blog

Keep up to date with the latest news

【已解决】笔记本连接投影仪信号不稳定,经常断开

蒙特卡洛树搜索(MCTS)中的扩展(Expansion)和模拟(Simulation)

Better-1:

拓展是只拓展一个还是多个?

【无聊问题之】DQN算法为什么要使用两个网络(主网络和目标网络)

vickHe:

这个不是价值函数吗,为什么通常成为policy_net,不应该是value_net吗

Explained variance(解释方差)

黄振301:

λi应该是第i个主要成分的方差,才对怎么会是这个主要成分的特征值除以特征值总和

强化学习PPO算法中的returns(回报)、deltas(TD误差) 和 advantages(优势)

xk_99:

请问作者大大,Actor网络更新的时候应该使用Return还是Advantage进行更新呀

Pandas DataFrame合并a列相同的项,并将相应b列的字符串相加

qq_41050468:

如果还有个c列不需要拼接,只需要保持原样可以怎么写啊,这个方法会把出去a,b列以外的所有列都去掉