读书网

手机浏览器扫描二维码访问

本站广告仅展示一次,尽可能不去影响用户体验,为了生存请广大读者理解

第107章(第3页)

打眼一看挺其貌不扬的一个人,瘦高个儿,中等长相,穿着不太讲究,有种贴合程序员气质的不修边幅。

他一个人坐一张桌子,边吃饭边低头看手机,似乎也不怎么合群,完全沉浸在自己的世界里。

汤珈树端着餐盘走过去,不请自来地在他对面落座,刘亮明显一愣,抬头看过来,眼睛里浮现出疑问和困惑。

他当然困惑,毕竟刘亮在整个研发中心都是出了名的性格孤僻,天才自带的那种孤高傲慢令其人缘一向不是很好。

这种人跟他聊天就应该聊些专业技术类的话题,偏偏在这点上汤珈树也最拿手。

两人面对面坐着,刘亮埋头吃饭,连声招呼都没打,一整个视若无睹。

汤珈树便主动开腔道:“刘工,我上午查日志,发现咱们排序模型每晚增量训练都卡在梯度同步,是不是用的ALLReduce后更新?”

刘亮终于肯认真地看他一眼,带着审视的意味,问:“之前好像没见过你,新来的?”

汤珈树笑着朝他递出手,自我介绍:“对,我是昨天刚入职的,汤珈树,你叫我小汤就好。”

刘亮顿了一秒,才伸手跟他握了握,接着问:“你权限还没开全吧?怎么看到的日志?”

“从训练耗时波动反推的,我想了一下,如果改用异步参数服务器加局部聚合,跨机房通信量能砍半,不过需要解决陈旧梯度问题。”

刘亮轻哼一声,不以为然道:“这方案去年试过了,worker延迟差异导致AUC下降0.8%,不可行。”

汤珈树笑得谦逊:“那要不要试试加动态补偿项呢?”他说着,解锁手机,点进一则网页递到刘亮面前,“喏,比如这篇ICML论文提到的,用牛顿叠代法预估梯度偏移,我复现过能收敛,但要把pytorch的通信后端魔改”

刘亮倏然打断他,眼睛里迸射出光彩来:“魔改MPI层?那要怎么规避死锁?”

“把全局barrier拆成带超时的分段校验,参考Ray框架的分布式容错设计。”汤珈树对答如流。

刘亮沉默半晌,话锋陡地一转:“你现在在哪个项目上?”

热门小说推荐