“别乱说嗷,我哪有这么好命。”孟繁岐觉得这小子还挺有意思的,“说正事吧,文档和论文的草稿我这里都给了,这个你们仔细仔细去读,我就不直接讲了。”
“今天主要就是说一下主要脉络和逻辑。YOLO检测算法,就是you only look once,只看一次。指得是对图片仅进行一次扫描,它的主要速度提升就来自于此。
一个经典的检测方法的流程是这样的:先通过计算机图形学(或者深度学习)的方法,对图片进行分析,找出若干个可能存在物体的区域,将这些区域裁剪下来,放入一个图片分类器中,由分类器分类。
最愚蠢的做法就是用多个尺寸的选框反复扫描图片,后面则是使用一些办法,筛选最有可能的一些区域。这些做法都是两步走的,看一次图片选感兴趣的区域,再看一次图片去为这个区域做分类。
而我的做法是直接将整个图片划分成均匀的多个网格,其中每个格子都可以输出物体的类别和检测框的坐标。物体落在哪个区域,哪个区域就负责预测这个物体。
我的网络输出是一维的,前N个数字代表N个类别的概率,后面X个数字代表X个检测框的概率,最后4X个数字用以描述检测框在图片上的位置。”
“那怎么可能会快一两百倍呢?”有思维敏捷的白度研究员出声提问道,“比较注重速度的传统办法会削减提出的区域数量,通常最多也不过千余个。按照你的说法,你至少也需要数十个网格,每个网格又需要数个检测框,这样的话,感觉差别也不是非常大。”
“如果我们采用7x7的网格+两个检测框的话,总数量就仅为98个检测框。此外,在骨干网络的设计还有非极大值抑制的具体操作顺序上,也有很大的调整空间。”
“那性能应该会受到很大的影响吧?”
“多类的目标应该怎么去做?”
“这样的话,小目标的检测应该会是一个难题吧?”
随着孟繁岐的讲解,在场的研究员们理解越来越深,问题也越来越多。
孟繁岐不得不说,李彦弘的这个研究院确实聚集了一批相当出色且思维跳跃有创造力的青年程序员们。
这才听了没有半小时,就已经能够问出相当有深度,有意义的问题了。
其中有速度提升的来源,参数设置和意义这样孟繁岐很好解释的问题。
也有对小目标检测的担忧,这种确实是YOLO算法硬伤的问题。
讨论起技术内容来,时间总是过得特别快,不知不觉两三个小时过去,孟繁岐此行的任务总算是全部完成了。
“走吧,今天签了个大单子,比我想象的久好多啊。”如此高强度的谈判加技术讨论,他精神上的确有点吃不消了。“怎么说,请你吃顿好?”
“去城里吧。”韩辞微笑着建议道。
其实对大部分女生而言,这一趟下来,恐怕心中很难生出什么好感。前前后后好几个小时,换麦芒这样的来了能无聊死。
不过对韩辞来说,这种专业领域上的才能和专注投入,反而是一件挺加分的事情。