您的当前位置：首页一种基于YOLO的交通目标实时检测方法

一种基于YOLO的交通目标实时检测方法

来源：小侦探旅游网

Vol.48No.92162计算机与数字工程Computer&DigitalEngineering总第371期第482020年第9卷期一种基于YOLO的交通目标实时检测方法

王思雨

TanvirAhmad

北京

102206）

（华北电力大学控制与计算机工程学院

摘

要

∗

随着大数据、云计算、移动互联网等技术的迅速发展，人工智能的技术逐渐成熟，无人驾驶逐渐成为可能。而

无人驾驶最重要的一个技术点就是图象识别，通过图像识别前方车辆、行人、障碍物、道路以及交通信号灯和交通标识。通过自动驾驶可以减轻驾驶员的负担，减少交通事故的发生频率。论文收集了多个城市的交通道路图像，通过分析交通目标特点，对其车辆、行人以及非机动车进行标注，将其作为样本进行训练。采用一种基于YOLO的深度学习实时目标检测方法，实现对交通目标的实时检测。并通过YOLO最新两个版本进行对比分析，实验结果表明采用YOLOv3进行交通目标检测能够达到一种实时检测的效果，并且能够在保持检测速度的情况下提高检测准确性。

关键词

无人驾驶；人工智能；深度学习；YOLO；目标检测

U491.1+4；TP391

DOI：10.3969/j.issn.1672-9722.2020.09.017

中图分类号

AReal-timeDetectionMethodofTrafficTargetsBasedonYOLO

WANGSiyu

TanvirAhmad

102206）

（SchoolofControlandComputerEngineering，NorthChinaElectricPowerUniversity，BeijingAbstract

ligencetechnologieshavegraduallymatured，andunmanneddrivinghasbecomepossible.Oneofthemostimportanttechnicalpointsforunmanneddrivingisimagerecognition，whichrecognizesvehicles，pedestrians，obstacles，roads，trafficlights，andtraf⁃canbereduced.Thisarticlecollectsimagesoftrafficroadsinmultiplecities.Byanalyzingthecharacteristicsoftraffictargets，vehi⁃cles，pedestrians，andnon-motorvehiclesaretaggedandtrainedassamples.Areal-timetargetdetectionmethodbasedondeepficsignsthroughtheimage.Withautomaticdriving，theburdenonthedrivercanbereducedandthefrequencyoftrafficaccidents

Withtherapiddevelopmentoftechnologiessuchasbigdata，cloudcomputing，andmobileInternet，artificialintel⁃

learningofYOLOisadoptedtoachievereal-timedetectionoftraffictargets.Andthroughthecomparisonofthelatesttwoversionsofandcanimprovethedetectionaccuracywhilemaintainingthedetectionspeed.

KeyWordsClassNumber

U491.1+4，TP391

YOLO，theexperimentalresultsshowthattheuseofYOLOv3fortraffictargetdetectioncanachieveareal-timedetectioneffect，

unmanneddriving，artificialintelligence，deeplearning，YOLO，targetdetection

1引言

近年来，我国城市道路建设规模日益扩大，城

等，使得机器能够识别车辆、行人、信号灯等一系列交通目标，从而为智能交通提供基础设施。人工智能［3］作为当下最火爆的科技之一，在车辆颜色、车牌识别、无牌车检测方面应用已经比较成熟。目前已经有许多大型公司投入大量资金，致力于自动驾驶汽车的研究。然而，如何能够提高车辆安全性能，提高交通目标检测准确率和检测速度是实现无人驾驶的关键。

基于上述背景介绍，交通安全问题是实现自动

市交通需求逐步增加，交通道路拥堵、交通事故猛增已成了交通管理部门所关注的重点问题［1］。随着大数据、云计算、移动互联网等技术的迅速发展，“互联网+”概念已经引起了各行各业的高度重视。

［2］

“互联网+交通”是将互联网新技术应用到智能交

通领域，如通过传感器、通讯设备、光学影像设备

∗

收稿日期：2020年3月10日，修回日期：2020年4月22日

作者简介：王思雨，女，硕士研究生，研究方向：大数据、计算机视觉。TanvirAhmad，男，博士研究生，研究方向：计算机视觉。

2020年第9期计算机与数字工程2163驾驶需要考虑的首要问题。因此，在进行交通目标检测任务时，如果可以在保持实时检测速度的情况下，还能够大幅提升检测精度，对自动驾驶技术而言是一项重要举措。本文将YOLOv3应用于车辆、行人等交通目标检测［19］，与YOLOv2相比能够大幅提升检测精度。

2目标检测

传统的交通目标检测技术包括基于雷达、超声

波、红外线等传感器检测方法［4］。其中基于雷达的目标检测是根据雷达发射的电磁波来探测车辆目标位置；而基于超声波的目标检测无法检测低速行驶车辆；基于红外线的检测方法抗干扰能力低。随着社会的发展，视频采集设备的价格越来越低廉，采集图像的质量越来越高，基于计算机视觉［5］的目标检测技术逐渐兴起。早期的图像检测技术是根据图像的颜色［6~8］、纹理、图形特征模型［9~10］等一系列特征变化来完成特征提取。Liuetal.［11］提出了一种新的单个视频对象提取的半自动分割方法。受Hubel卷积神经网络和Wiesel［12对猫视觉皮层研究启发，］。YannLecun［13］是最早将有人提出CNN用于手写数字识别，并一直保持了其在该领域的霸主

地位。2012年ImageNet竞赛冠军获得者Hinton和他的学生Net

AlexKrizhevsky设计了AlexNet［14］。VGG⁃［15］

Mind是牛津大学计算机视觉组和GoogleDeep⁃

络。GoogLeNet

公司的研究员一起研发的深度卷积神经网［16］

是2014年ChristianSzegedy提出

的一种全新的深度学习结构。ResNet［17］

在2015年

被微软亚洲研究院何凯明团队提出，ResNet有152层，除了在层数上面创纪录，ResNet的错误率也低得惊人。2015年，RedmondJ提出了一种全新的端到端的目标检测算法——YOLO［18］。YOLO借鉴了络，GoogLeNet它能够达到的分类网络结构。相比其他的检测网

45f/s的检测速度。

在自动驾驶系统中，目标检测任务主要是预测目标类别以及目标位置。现有的基于CNN的目标检测方法，大多第一步是先提取感兴趣的区域候选框，然后利用卷积神经网路提取区域特征，最后将提取的区域特征送入分类器进行分类。与其他目标检测方法不同的是，YOLO运行一次神经网络就可以得到预测边框以及所属类别，而不是区域候选框提取之后再进行分类。这样做的结果就是提高了检测速度，YOLO但以牺牲精度为代价。到目前为止，LOv3。

已经经历了两次版本的更迭，最新版是YO⁃3

YOLO原理

3.1

YOLOv1

目标检测任务主要是分类。在YOLO之前的

目标检测方法主要是通过区域建议产生大量可能包含目标的候选框，再使用分类器进行分类，判断候选框中是否含有待检测目标，并计算目标所属类别的概率。而YOLO是一个端到端的目标检测框架，它把目标检测任务当作回归问题来处理，通过一次图像输入就可以同时得到预测边框的坐标、边框包含目标的置信度，YOLO以及所属类别的概率。由于因此，检测目标更快。选出预测框的位置以及其含实现目标检测是在一个神经网络里完成的，有目标的置信度和属于目标类别的可能性。

如图1所示，YOLOv1的核心思想是将每个图像划分成S×S的网格。每个网格预测B个边界框，和C个类别概率。每个边界框负责预测目标中心位置和大小x，y，w，h，以及置信度共5个变量。其中x，y表示预测边界框的中心落在当前网格的相对位置。w，h表示边界框的宽和高相对整个图像的比例。置信度则反映了目标位置预测的准确性。其计算公式如下：

confidence=Pr(Object)´IOUtruth

pred

如果有目标中心落到一个网格中，公式右边第一项Pr（Object）取1，否则取0。第二项IOU指的是预测边框和真实标注边框之间的重叠度。网络模型最后的输出维度为S×S×（B×5+C）。

图1

YOLOv1思想模型

检测目标时，由以下计算公式得到每个网格预测目标类别的置信度得分。

confidence´P(Classtruth

i|Object)=P(Classi)´IOUpred

最后通过非极大值抑制，如图2所示。过滤掉得分低的预测框，从而确定预测目标的最终位置。而置信度得分用来判断目标所属类别。

以VOC数据为例，YOLOv1采用7×7网格，每个网格预测两个边界框。因为VOC数据集待检测目标有20个种类，所以输出张量为7×7×（2×5+

2164王思雨等：一种基于YOLO的交通目标实时检测方法第48卷

20全连接层。）=30，YOLOv1YOLOv1检测网络包括借鉴了GoogLeNet24个卷积层和两个，但是与之不同的是，YOLOv1使用1×1和3×3的卷积核代替

了GoogLeNet的inceptionmodule。

图2

非极大值抑制

很好地提升了检测速度，YOLOv1相比其他基于但是由于CNN的网络模型而言

YOLOv1的检测机制使得一个网格只能预测一个目标，此时，如果

有两个物体同时落入一个网格，就会使得漏检率比较高，而且一幅图像只预测98个边界框，对于目标定位误差较大。

3.2

YOLOv2

SSD［21］的网络

结构，YOLOv2［20］则参考了YOLOv1和采用类似VGG16的网络结构，多次使用3×3卷积核，并且在每一次池化操作之后都会把通道数翻倍。网络使用全局评价池化，把1×1的卷积核置于3×3的卷积核之间，用来压缩特征。最后得到Darknet-19层和5个最大池化层。但是的基础网络模型，Darknet-19其中包含19计算量要

个卷积比VGG16小得多，在ImageNet

［22］

分类top-1准确率

能够达到72.9%，top-5准确率达到91.2%。高到YOLOv2448×448把初始输入图像分辨率由，使得高分辨率的训练模型224×224mAP获得

提

4%预测边框和分类，的提升。其次由于导致丢失许多空间信息，YOLOv1最后使用全连接层导致定位不准确，YOLOv2借鉴了RPN中anchor的思想，在卷积层使用下采样，使得416×416的输入图像最终得到13×13的特征图，最终预测13×13×9个边框，大幅度提升了目标检测的召回率。YOLOv2还改进了预测边框的方法。使用K-Means聚类方法训练边框。而传统的K-Means方法使用的是欧式距离，这意味着大的边框会比小边框更容易产生误差。因此，作者提出使用IOU得分来评判距离大小。使得预测的边框更具代表性，从而提升检测准确率。YOLOv2采用SSD使用不同的特征图以适应不同尺度目标的思想，对原始网络添加了一个转移层，把26×26×512的浅层特征图叠加成13×13×2048的深层特征图，这样的细粒度特征对小尺度的物体

检测有帮助。最后，YOLOv2还结合单词向量树方法，能够检测上千种目标，虽然对本文检测任务来说参考意义不大，但这对多目标检测任务来说也是一个很大的突破。

3.3

多尺度预测。对坐标预测和YOLOv3YOLOv3

［23］相对于YOLOv2的改进主要体现在

YOLOv2一样使用的维度聚类作为anchorboxes来预测边界框。在训练期间，使用平方误差损失的总和，这样计算快一些。对于类别的预测，YOLOv3再使用Softmax进行

分类，而是每个边框通过逻辑回归预测该边框属于某一个类别目标的得分，这样可以检测一个目标属于两个标签类别的情况。对于跨尺度预测，主要是为了适应不同尺度的目标，使得模型更具有通用性。尤其对小目标的检测，YOLOv3精度有了很大提升。LOv1采用了Darknet-53，网络结构相比多，尤其是对小目标的检测精度有了很大提升。并和YOLOv2稍大了一些，但是准确度提高了很YO⁃且在实现相近性能时，YOLOv3比SSD速度提高3

倍，比RetinaNet速度提高近4倍。

4实验与结果分析

本实验环境的操作系统是Ubuntu16.04，所有

实验都是在GPU的配置下完成的，INVIDIA显卡型号cuDNNGTX1070可视化。

以及，OpenCV显存8G。。使用到的开发包有OpenCV是为了将检测结果CUDA、实验数据是根据车载摄像头捕捉的交通道路视频，利用视频分帧软件得到静态图像。并对其进行手工标注。其中用于车辆、行人、非机动车的数据集有40765张图像。

4.1实验指标

本实验将现有的数据集划分成图像数量分别

为6500、13000、19500、26000、32500、39000的6个不同大小的训练数据集，其余1765张图像用作测试集。通过设定不同参数，得到多个训练模型。通过计算平均精度（AP）作为衡量模型的指标。

在本实验中，通过计算预测边框与真实边框的交并比（IOU），一般认为只要满足下述条件的就是正确的检测结果，称为正样本。

IOU=area(BÇBg)

area(BÈB)³0.5

g其中B为检测模型预测的边框，Bg为人工标注的目标真实边框。

为了计算AP值，我们需要知道以下几个概念：

2020年第9期计算机与数字工程2165表1

正负样本概念

概念说明TruePositive(TP)真实为正样本，预测也为正样本的个数TrueNegative(TN)真实为负样本，预测也为负样本的个数FalsePositive(FP)真实为负样本，预测为正样本的个数FalseNegative(FN)真实为正样本，预测为负样本的个数其中，准确率（Precision）的计算公式为P=TPTP

+FP召回率（Recall）的计算公式为

R=TPTP

+FN图3准确率-召回率曲线图

如图3所示，准确率-召回率（PR）曲线是根据对应的准度率召回率曲线绘制的。而AP则是PR曲线下的面积值，可以通过准确率和召回率计算函数积分得到，计算公式如下：

AP=

1

P(R)dR

有时候为了评估模型的整体性能，需要对所有目标的AP求平均值得到mAP。计算公式为

mAP=

åAP

N其中，N是待检测目标类别个数。

4.2实验结果和分析

本文使用YOLOv3和YOLOv2分别在训练集上

训练模型，检测车辆、行人和非机动车三类目标。如图4所示，是在39000的训练集以及45000次迭代次数的情况下，三类目标分别在YOLOv3和YO⁃LOv2LOv3训练模型得到的AP值。显然，图5所示，要比之前的检测框架精度有了大幅提升。如改进了的YO⁃YOLOv3对于交通目标检测的mAP明显高于YOLOv2。而YOLOv3检测速度相比YOLOv2减慢了1/3，如图6所示，YOLOv3和YOLOv2训练模型分别对1765张测试集图像进行测试所耗费的时间，均达到了每秒30帧以上的检测速度。这对于实时的目标检测任务也是足够的。因此，选择YO⁃LOv3实现交通目标检测任务再合适不过。

图4两种方法的AP

图5两种方法的mAP

图6

两种方法的检测时间

图7、图8、图9是通过YOLOv3在不同数据集上训练不同模型测试的结果。图中展示了对于同一类检测目标，数据集的规模大小以及迭代次数的多少对目标检测精度AP的影响。通过对比三类不同的目标发现，不同的数据集对于车辆的检测精度变化并不大，而对于行人和非机动车而言，6500的训练集确实检测效果不佳。因此，大量的数据训练还是有必要的，随着数据集规模的增加，检测精度明显呈上升趋势。

图7

不同数据集下car的AP变化曲线图

如图10、图11、图12所示，对于同样的训练数据集，当迭代次数增加到1000次左右的时候，AP有一个较为明显的变化，这是因为当训练模型迭代

2166王思雨等：一种基于YOLO的交通目标实时检测方法第48卷

到1000次左右时loss收敛较快。其次，对于车辆而言，随着迭代次数的不断增加，AP已逐渐趋近于1，从统计结果来看，迭代次数增加对车辆的检测精度提高并不明显。而对于行人和非机动车而言，AP还有很大上升空间，从图中的趋势也可以看出，如果继续增加迭代次数，对ped和cyc的检测精度还是可以继续提高的。

图8

不同数据集下cyc的AP变化曲线图

图9

不同数据集下ped的AP变化曲线图

图10

26000数据集时AP的变化曲线

进一步综合图7~12，可以看到，对于车辆、行人和非机动车的检测结果是不同的。对于车辆的检测，AP最高达到93%左右，而对于行人，AP最高也才55%左右。究其原因可能有二：一是，在所有

的数据集中，目标分配极不均衡；这也提醒我们在基于YOLO的深度学习训练中以后要尽量保持目标均衡，效果则较好。二是，车辆特征比较明显，而行人和非机动车特征变化多端，再加上交通道路场景复杂，对于行人的检测精度还有待提高。

图11

32500数据集时AP的变化曲线

图12

39000数据集时AP的变化曲线

5结语

本文通过在YOLOv3和YOLOv2上对比实验，

验证了YOLOv3应用于交通目标检测精度确实要比YOLOv2高出很多。YOLOv3在不同数据集和迭代次数的各种组合情况下，表现出了训练集越大，迭代次数越多，检测精度越高的特性。并且能够保证检测的实时性。尽管YOLOv3检测精度已经有了很大提升，但是，还没有达到百分百准确的程度。由于无人驾驶与人类生命息息相关，因此，在图像目标检测应用在无人驾驶领域的方法还不够

成熟，检测精度还有待提高。下一步考虑如何能够平衡不同目标的检测准确度，将模型泛化，使其能够应用到更多的领域中。并将加入和其他目标检测方法的对比，验证YOLO在交通目标检测领域的有效性及高效性。

2020年第9期计算机与数字工程2167参考文献

［1］蔡翠.我国智慧交通发展的现状分析与建议［J］.公路

交通科技（应用技术版），2013，9（06）：224-227.CAItheCui.AnalysisandSuggestionsJournalDevelopmentofSmartTransportationontheStatusinChinaQuo［J］of.velopmentofHighwayandTransportationTechnologyEditionResearch），2013and，De9

⁃（06）：224-227.

（Application［2］翟婧彤，王振坡，王丽艳.“互联网+”时代的城市交通变

革与发展［J］.城市，2015（09）：70-74.

ZHAITransportationJingtongReform，WANGandZhenpo，WANGLiyan.Urban3］ternetRussell+”［SJJ］，.NorvigCity，P.2015Artificial（09Development）：70-74.

intheAgeof“In⁃［intelligence：amodernap⁃［4］proachJIX，［WEIM］.ZMalaysia，FENG：Y.PearsonEffectiveEducationvehicleLimiteddetection，2016.

tech⁃

niquealCommunicationfortrafficsurveillancesystems［J］.JournalofVisu⁃（3）：647-658.

andImageRepresentation，2006，17［5］SivaramanS，TrivediMM.Lookingatvehiclesonthe

roadingligent，：andAsurveyTransportationbehaviorofanalysisvision-basedSystems［J］，.2013IEEEvehicle，Transactionsdetection14（4）：1773-1795.

on，trackIntel⁃⁃［6］ViolaP，JonesMJ，SnowD.DetectingPedestriansUsing

Patternssion，2003.ofMotionProceedings.andAppearanceNinthIEEE［InternationalC］//ComputerConferVi⁃enceon，NewYorkY，ZHENG：IEEE，Y2003F.：Object734.

⁃［7］ZHUJ，LAOtrackinginstruc⁃

turedIEEEenvironmentsTransactionsforvideoCircuitssurveillanceandSystemsapplicationsforVideo［J］.［8］TechnologyKhanZH，，Gu2010IY，20H（on，2Backhouse）：223-235.

AG.Robustvisualob⁃

jectparticletrackingfilters［usingJ］.multi-modeIEEETransactionsanisotropiconCircuitsmeanshiftandSysandtemsforVideoTechnology，2011，21（1）：74-87.⁃［9］PANJ，HUB，ZHANGJQ.Robustandaccurateobject

trackingundervarioustypesofocclusions［J］.IEEEgyTransactions，2008，18（on2）Circuits：223-236.

andSystemsforVideoTechnolo⁃［10］LIUX，LINL，YANS，etal.Adaptiveobjecttracking

bytionslearninghybridtemplateonline［J］.IEEETransac⁃11］2011Brendel，on21（CircuitsW11，）Todorovic：1588-1599.

andSystemsforVideoTechnology，［S.Videoobjectsegmentationby

trackingInternationalregionsConference［C］//Computeron，NewVisionYork，2009：IEEEIEEE，200912th：

［12］833-840.

SharifRazavianA，AzizpourH，SullivanJ，etal.CNN

featuresnition［C］off-the-shelf//Proceedings：anofastoundingtheIEEEconferencebaselineforonrecogcom⁃putervisionandpatternrecognitionworkshops⁃

［13］YorkLeCun：IEEEY，Boser，2014B：，806-813.

，NewDenkerJS，etal.Backpropagation

appliedcomputationtohandwritten，1989，1（4zip）：code541-551.

recognition［J］.Neural［14］BallesterP，deAraújoRM.OnthePerformanceof

GoogLeNetAAAI，2016：and1124-1128.AlexNet.

AppliedtoSketches［C］//［15］LIUN，HANJ.Dhsnet：Deephierarchicalsaliencynet⁃

workforsalientobjectdetection［C］//ComputerVisionenceandPatternon，NewRecognitionYorkL：，IEEE（XIE，CVPRZ.2016）High：，678-686.2016IEEEConfer⁃［16］ZHONGZ，JINperformanceoffline

handwritten

GoogLeNetAnalysisandandChinese

Recognitiondirectionalcharacter

（ICDARfeature）mapsrecognition

，2015［C］13th//Documentusing

tionalConferenceon，NewYork：IEEE，2015：846-850.

Interna⁃［17］LINH，JegelkaS.ResNetwithone-neuronhiddenlay⁃

ersInformationisaUniversalProcessingApproximatorSystems［，2018J］.Advances：6172-6181.

inNeural［18］RedmonJ，DivvalaS，GirshickR，etal.Youonlylook

onceings：ternrecognitionofUnifiedtheIEEE，real-time，conferenceobjectNewYork：onIEEEcomputerdetection［，2016：visionC］//Proceed779-788.andpat⁃⁃［19］王宇宁，庞智恒，袁德明.基于YOLO算法的车辆实时

检测［J］.武汉理工大学学报，2016，38（10）：41-46.WANGcleofWuhanDetectionYuningUniversityBased，PANGonofYOLOZhihengTechnologyin，RealYUANDeming.Vehi⁃，Time2016［，J］38.（Journal41-46.

10）：［20］RedmonJ，FarhadiA.YOLO9000：better，faster，stron⁃

ger［C］//2017IEEEConferenceonComputerVisionand［21］LIUPatternW，RecognitionAnguelov，DNew，ErhanYork：DIEEE，et，al.2017Ssd：：6517-6525.

Singleshot

multiboxvision，Springerdetector：［ChamC］//European，2016：21-37.

conferenceoncomputer［22］KrizhevskyA，SutskeverI，HintonGE.Imagenetclassi⁃

ficationinwithNeuraldeepInformationconvolutionalProcessingneuralnetworksSystems［J，］2012.Ad：⁃［23］1097-1105.

vancesZHANGX，YANGW，TANGX，etal.AFastLearning

MethodTwo-StageforFeatureAccurateExtractionandRobustLaneDetectionUsingsors，2018，18（12）：4308.

withYOLOv3［J］.Sen⁃

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文