Riconoscimento dei segnali stradali basato sull'algoritmo YOLOv3, parte 3

Jan 19, 2024

3.3. Generazione di frame a priori basati sull'algoritmo di clustering K-Means

Il meccanismo di ancoraggio è stato implementato in YOLOv2 e il numero di ancoraggi è stato aumentato a nove in YOLOv3 per rendere le regioni candidate generate più simili ai frame etichettati autentici e aumentare il richiamo della rete di rilevamento.

Esiste una forte relazione tra fotogrammi marcati e memoria. Contrassegnare i fotogrammi può aiutarci a stabilire un quadro di memoria fisso, regolare e ordinato, facilitando la memorizzazione di grandi quantità di informazioni. Ad esempio, quando impariamo una lingua, possiamo utilizzare cornici contrassegnate per memorizzare nuove parole e regole grammaticali. Durante la revisione della cronologia, possiamo utilizzare fotogrammi contrassegnati per memorizzare eventi storici e sequenze temporali. In questo modo possiamo rendere la conoscenza astratta più concreta e comprensibile.

Allo stesso tempo, contrassegnare i fotogrammi può anche stimolare la capacità associativa del nostro cervello, migliorando così la nostra memoria. Poiché la nostra memoria si basa sull'associazione e sulla connessione, stabilendo cornici marcate, possiamo connettere in modo più naturale la nuova conoscenza con quella esistente, approfondendo la memoria e la comprensione.

La capacità della memoria umana può essere allenata e migliorata. Attraverso la pratica costante e l'uso di tecniche di memoria come la marcatura dei fotogrammi, possiamo migliorare la nostra memoria e affrontare meglio informazioni e compiti complessi nella vita e nel lavoro.

In breve, contrassegnare i fotogrammi è una tecnica di memoria molto efficace. Può aiutarci a ricordare informazioni importanti in modo più rapido e accurato. Può anche stimolare la nostra capacità associativa e migliorare la nostra memoria. Usiamo attivamente i fotogrammi contrassegnati per migliorare continuamente le nostre capacità di memoria! Si può vedere che abbiamo bisogno di migliorare la memoria, e la Cistanche deserticola può migliorare significativamente la memoria perché la Cistanche deserticola è un materiale medicinale tradizionale cinese che ha molti effetti unici, uno dei quali è quello di migliorare la memoria. L'efficacia della carne macinata deriva dai vari principi attivi che contiene, tra cui acidi, polisaccaridi, flavonoidi, ecc. Questi ingredienti possono favorire la salute del cervello in vari modi.

increase brain power

Fare clic su Conosci per migliorare la memoria a breve termine

Non era appropriato utilizzare l'ancora originale, dal momento che i segnali stradali sono principalmente obiettivi piccoli e medi, con meno obiettivi grandi nel set di dati TT100K. Per un set di dati specifico, la scelta di un'ancora iniziale adatta può migliorare l'effetto di rilevamento, rendere la rete più facile da apprendere e aumentare il tasso di rilevamento del riquadro di delimitazione.

Il flusso dell'algoritmo di clustering K-means per ottenere candidatebox è mostrato nella Figura 7.

Nel set di dati TT100K, la struttura di rete YOLOv3 migliorata includeva una scala di previsione delle caratteristiche, risultante in quattro scale e dodici ancore: (4, 5), (5, 6), (7, 7), (7, 13), (8, 8), (9, 10), (11, 12), (13, 14), (16, 17), (20, 22), (27, 29) e (41, 44).

supplements to improve memory

4. Esperimenti e analisi dei risultati

4.1. Dataset e indicatori di valutazione

Esistono alcuni grandi set di dati sui segnali stradali disponibili al pubblico, la maggior parte dei quali utilizza il GTSDB, ma il GTSDB non è lo stesso dei segnali stradali cinesi. CTSDB, CCTSDB e TT100K, tra gli altri, sono set di dati sui segnali stradali cinesi.

Il CCTSDB è stato ampliato sulla base del CTSDB e le sue categorie sono state suddivise in segnali di avvertimento, segnali direzionali e segnali di divieto, senza una classificazione dettagliata dei segnali stradali.

La collezione di segnali stradali TT100K è stata creata in collaborazione tra Tencent e l'Università Tsinghua. Offriva una categorizzazione e identificazione approfondita dei segnali stradali, copriva varie circostanze climatiche e di illuminazione ed era più accurato per le situazioni di guida reali.

Pertanto, in questo documento è stato utilizzato il set di dati sui segnali stradali TT100K e alcuni segnali stradali e informazioni sulle categorie sono mostrati nella Figura 8.

ways to improve your memory

Il set di dati TT100K contiene 100,000 foto con una risoluzione di 2048 x 2048 pixel, sebbene siano presenti immagini di segnali stradali senza etichetta e alcune categorie abbiano solo poche immagini o immagini duplicate, riducendo l'effetto di rilevamento.

Pertanto, questo documento ha rimosso le immagini dei segnali stradali senza etichetta e duplicati dal set di dati e ha selezionato 45 categorie con un numero elevato di segnali stradali, dove le 45 categorie di segnali stradali erano: pn, pne, i5, pll, pl40, po,pl50, pl80 , io, pl60, p26, i4, pll00, pl30, il60, l5, i2, w57, p5, p10, ip, pl120, il80, p23, pr40.ph4. 5, w59, p12, p3, w55. pm20, pl20, pg, pl70, pm55, il100, p27, w13, p19, ph4, ph5, wo, p6.pm30 e w32 e il numero di ciascuna categoria di segnali stradali è mostrato nella Figura 9.

improve brain

La Figura 9 mostra che anche se venivano scelte 45 categorie con un gran numero di segnali stradali, c'era comunque uno squilibrio significativo nella quantità di dati tra ciascuna categoria, con conseguente scarsa accuratezza della previsione del modello. Di conseguenza, come illustrato nella Figura 10, questo lavoro ha bilanciato e ampliato il set di dati impiegando tattiche come il dithering del colore, il rumore gaussiano e la rotazione dell'immagine per garantire che la quantità di ciascuna categoria fosse quanto più uguale possibile.

improve memory

L'approccio Mosaico legge quattro immagini alla volta, ridimensiona e altera la gamma cromatica di ciascuna immagine, le dispone in quattro direzioni e quindi unisce le immagini per creare la vera cornice del target.

Il metodo di miglioramento unisce quattro immagini, equivalente a calcolare i parametri di quattro immagini con un input. Ciò può ridurre il numero di immagini per l'input batch, ridurre la difficoltà e i costi di formazione, migliorare la velocità di formazione e arricchire notevolmente il numero di campioni nel set di dati, favorendo l'apprendimento.

in questo documento, i parametri di valutazione del set di dati COCO, inclusi mAPou - 050AP, APM, AP e diversi altri parametri, sono stati utilizzati per valutare le prestazioni del modello. In particolare, la maggior parte dei segnali stradali nel set di dati dei segnali stradali TT100K appartenevano a bersagli piccoli, quindi è stato necessario prestare particolare attenzione alla precisione di rilevamento dei bersagli piccoli. I significati specifici delle metriche di valutazione sono i seguenti:

AP: l'area sotto la curva PR, dove PR è rispettivamente precisione e richiamo:

API {{0}}.50: quando la soglia IoU è impostata su 0,50, è la media di tutte le categorie di AP nel set di dati, che è l'indice di valutazione del set di dati PASCAL VOC e corrisponde a APIoU=0.50 nell'indice di valutazione COCOmAPloU= 0.50: quando la soglia loU è impostata su 0,50, è la media di tutte le categorie di AP nel set di dati, che è l'indice di valutazione di il set di dati PASCAL VOC e corrisponde ad APloU=0.5 nell'indice di valutazione COCO.

AP: valore medio di mAP per oggetti piccoli: area < 322 e intervallo loU=(0.5, 1.00, 0.05) per un totale di 10 unità.

increase memory

APm: oggetti medi: 322 < area < 962 e loU=intervallo (0.5, 1.00, 0.05) valore medio di mAP per a totale di 10 IoU.

AP: valore medio di mAP per oggetti di grandi dimensioni: area > 962 e intervallo loU=(0.5, 1.00, 0.05 per un totale di 10 IoU.

4.2. Risultati sperimentali e analisi

4.2.1. Esperimento di confronto YOLOv3 migliorato

In questo studio sono state confrontate e testate tre reti YOLOv3 con metodi avanzati, utilizzando il set di dati dei segnali stradali TT100K e immagini di input di dimensioni 608 × 608 pixel. La Figura 11 mostra la mappa e l'AR di M-YOLOv3 addestrato sul set di dati TT100.

I risultati del rilevamento per target di varie dimensioni sono mostrati nella Figura 12 e nella Tabella 1. Tra questi, YOLOv3-DK ha adottato la strategia di miglioramento della funzione di perdita DIoU loss e dell'ancora di re-clustering; YOLOv3-SPP ha adottato la strategia spaziale di fusione della struttura di pooling piramidale; YOLOv3-4l ha adottato la strategia di aggiungere il quarto featurelayer di previsione con scale 152 × 152; e M-YOLOv3 era la struttura di rete YOLOv3 che utilizzava tutte le strategie migliorate.

boost memory


10 ways to improve memory

La Tabella 1 e la Figura 12 mostrano che la precisione media media dell'originale YOLOv3 senza utilizzare alcuna strategia era del 68,9%. Al contrario, la mappa del YOLOv3 aggiornato con tutti i metodi era del 77,3%, con un miglioramento dell'8,4% nel rilevamento.

La funzione di perdita DIoU e la tecnica di ancoraggio del re-clustering hanno migliorato la precisione di rilevamento dell'1,3%; tuttavia, il miglioramento è dovuto a una convergenza più rapida della funzione di perdita durante l'addestramento, che ha reso la regressione della casella di destinazione più stabile e ha migliorato il tasso di richiamo. Miglioramenti più pronunciati nella mAP sono stati osservati in YOLOv3, che includeva una struttura SPP e ha raggiunto un 73,2%.

La struttura SPP combinava caratteristiche locali e globali, migliorando la capacità della mappa delle caratteristiche di esprimersi e aumentando significativamente l'accuratezza del rilevamento. Utilizzando il metodo di aggiunta di un quarto livello di caratteristiche di previsione con scale 152 × 152, anche l'AP è stato notevolmente migliorato.

La precisione del rilevamento di bersagli piccoli è stata migliorata del 10,5% rispetto a YOLOv3, che sfruttava appieno le funzionalità superficiali della rete per la previsione di bersagli piccoli, con un conseguente effetto di rilevamento notevolmente migliorato, ma a scapito di una maggiore complessità ed elaborazione della rete. . Il miglioramento migliore è stato M-YOLOv3, che ha combinato le tre procedure di miglioramento e ha ottenuto un mAP del 77,3%, ovvero dell'8,4% in più rispetto alla precisione media media dell'originale YOLOv30. La Figura 13 mostra i risultati del test di M-YOLOv3 su TT100K.

short term memory how to improve

4.2.2. Confronto dell'algoritmo YOLOv3 migliorato con altri algoritmi

M-YOLOv3 è stato confrontato con diversi altri algoritmi classici di rilevamento del target per convalidare ulteriormente il riconoscimento di rilevamento della rete migliorata e i risultati sono mostrati nella Tabella 2.

ways to improve memory

La tabella 2 dimostra che M-YOLOv3 aveva il mAP più alto, pari al 77,3%, e SSD aveva le migliori prestazioni in tempo reale, con un FPS di 42. Rispetto all'algoritmo YOLOv3 originale, la precisione media media è stata notevolmente migliorata, sebbene il tempo reale le prestazioni sono state ridotte. Rispetto all'SSD con algoritmo a uno stadio, mAP è migliorato del 12%, ma c'era ancora un divario nelle prestazioni in tempo reale. Rispetto all'algoritmo di rilevamento del bersaglio a due stadi Faster-RCNN, l'FPS è stato migliorato a 22 e anche il mAP è stato migliorato dell'1,7%, il che ha migliorato la velocità di rilevamento, nonché la precisione di rilevamento. Le prove hanno dimostrato che M-YOLOv3 ha ottenuto risultati migliori in termini di precisione e velocità di rilevamento.

4.2.3. Effetto di riconoscimento migliorato di YOLOv3 sui segnali stradali in un ambiente speciale

A causa di vari fattori, come la forte irradiazione luminosa, le ore notturne e gli ambienti speciali di occlusione dei segnali stradali, che influenzeranno il rilevamento e il riconoscimento dei segnali stradali negli scenari di guida del mondo reale, è stato necessario considerare anche l'effetto di riconoscimento del modello sui segnali stradali in ambienti speciali. In circostanze particolari, il modello YOLOv3 aggiornato è stato utilizzato per riconoscere i segnali stradali, come dimostrato nella Figura 13.

Nella Figura 14, l'effetto di rilevamento di YOLOv3 viene confrontato con quello di M-YOLOv3 in un ambiente speciale. Come mostrato nella Figura 14 (b1,c1), l'algoritmo YOLOv3 non è riuscito a rilevare il segnale stradale oscurato nel caso di un segnale stradale oscurato, mentre l'algoritmo YOLOv3 migliorato ha identificato accuratamente il segnale stradale oscurato; come mostrato nella Figura 14(b2,c2), l'algoritmo YOLOv3 presentava problemi di falso rilevamento e mancato rilevamento per il riconoscimento dei segnali stradali in un ambiente di forte irradiazione luminosa, mentre l'algoritmo YOLOv3 migliorato riconosceva accuratamente tutti i segnali stradali.

ways to improve brain function

L'algoritmo YOLOv3 migliorato ha aumentato la quarta scala di previsione delle caratteristiche per i bersagli piccoli, migliorando l'effetto di rilevamento dei bersagli piccoli, mentre l'algoritmo YOLOv3 presentava problemi con il mancato rilevamento e la bassa confidenza per i bersagli piccoli, come mostrato nella Figura 14(b3,c3); in ambienti scarsamente illuminati, come di notte, l'algoritmo YOLOv3 aggiornato riconosce i segnali stradali, come illustrato nella Figura 14 (b4, c4); tuttavia il metodo YOLOv3 non ha rilevato i target. Di conseguenza, in situazioni particolari, l'algoritmo YOLOv3 aggiornato ha comunque prodotto risultati di rilevamento migliori.

memory enhancement

5. Conclusioni

In questa ricerca è stata suggerita una rete di rilevamento e riconoscimento dei segnali stradali basata su YOLOv3 modificato, per affrontare le difficoltà di bersagli piccoli che sono difficili da rilevare e la bassa precisione di rilevamento nelle attività di rilevamento e identificazione dei segnali stradali.

La nuova struttura di pooling piramidale spaziale ha consentito la fusione di caratteristiche locali e globali in questo studio, oltre ad aumentare la quarta scala di previsione delle caratteristiche per bersagli piccoli per migliorare l'effetto di rilevamento di bersagli piccoli. Per rendere più stabile la regressione del frame target, è stata utilizzata la perdita DIoU, che aveva una convergenza più rapida ed era più coerente con la regressione del frame target.

La precisione della rete di rilevamento è stata notevolmente migliorata danneggiando il meno possibile la rete in tempo reale. Il mAP è aumentato di 8,4 punti. L'algoritmo YOLOv3 aggiornato ha migliorato la complessità della rete e ridotto la velocità di rilevamento. Tuttavia, il rilevamento in tempo reale è ancora molto lontano; pertanto, la prossima area di ricerca aumenterà la velocità di rilevamento per ottenere l'effetto del rilevamento in tempo reale.

Contributi dell'autore: Metodologia e preparazione della bozza originale di scrittura, AL e CG; analisi formale e investigazione, YS; cura dei dati, NX; risorse, AL; convalida, WH Tutti gli autori hanno letto e accettato la versione pubblicata del manoscritto.

Finanziamento: questo progetto è stato sostenuto dal programma provinciale di scienza e tecnologia per l'innovazione nell'istruzione superiore della gioventù della provincia di Shandong (sovvenzione n. 2019KJB019), dalla Shandong Provincial NaturalScience Foundation of China (sovvenzione n. ZR2021MF131, ZR2015EL019 e ZR2020ME126) e dalla National Natural Science Foundation di Cina (concessione n. 61601265 e 51505258). Questo progetto è stato finanziato dalla China Postdoctoral Science Foundation (concessione n. 2021M701405), dal progetto aperto del State Key Laboratory of Mechanical Behavior and System Safety of Traffic Engineering Structures, Cina (concessione n. 1903), dal progetto aperto di Hebei Traffic Safety and Control Key Laboratory, Cina (concessione n. JTKY2019002) e il grande progetto di innovazione scientifica e tecnologica nella provincia di Shandong (concessione n. 2022CXGC020706).

Dichiarazione del Comitato di Revisione Istituzionale: Non applicabile.

Dichiarazione di consenso informato: non applicabile.

Dichiarazione sulla disponibilità dei dati: non applicabile.

Ringraziamenti: Ringraziamo tutti gli autori per il loro contributo alla stesura di questo articolo.

Conflitti di interessi: gli autori non dichiarano alcun conflitto di interessi.

improve your memory


Riferimenti

1. De la Escalera, A.; Armingol, JM; Mata, M. Riconoscimento e analisi dei segnali stradali per veicoli intelligenti. Immagine Visibilità Calcola. 2003,21, 247–258. [RifCroce]

2. Saadna, Y.; Behloul, A. Una panoramica dei metodi di rilevamento e classificazione dei segnali stradali. interno J. Multimed. Informazione. Ritiro 2017, 6.193–210. [RifCroce]

3. Boumediene, M.; Cudel, C.; Bassotto, M.; Ouamri, A. Rilevamento dei segnali stradali triangolari basato sull'algoritmo RSLD. Mach. Vis. Appl.2013, 24, 1721–1732. [RifCroce]

4. Maldonado-Bascón, S.; Lafuente-Arroyo, S.; Gil-Jimenez, P.; Gomez-Moreno, H.; Lopez-Ferreras, F. Rilevamento e riconoscimento dei segnali stradali basato su macchine vettoriali di supporto. IEEE Trans. Intel. Trasp. Sist. 2007, 8, 264–278. [RifCroce]

5. Bahlmann, C.; Zhu, Y.; Ramesh, V.; Pellkofer, M.; Koehler, T. Un sistema per il rilevamento, il tracciamento e il riconoscimento dei segnali stradali utilizzando informazioni su colore, forma e movimento. Negli Atti degli Atti IEEE. Simposio sui veicoli intelligenti, 2005, Las Vegas, NV, USA, 6–8 giugno 2005; pp. 255–260.

6. Ren, S.; Lui, K.; Girsick, R.; Sun, J. Faster R-CNN: verso il rilevamento di oggetti in tempo reale con le reti di proposta regionali.Adv. Informazioni neurali. Processi. Sist. 2015, 28, 91–99. [CrossRef] [PubMed]

7. Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.-Y.; Berg, AC SSD: rilevatore MultiBox a scatto singolo. Nella Conferenza Europea sulla Visione Artificiale; Springer: Cham, Svizzera, 2016; pagine 21–37.

8. Redmon, J.; Divvala, S.; Girsick, R.; Farhadi, A. Si guarda solo una volta: rilevamento di oggetti unificato e in tempo reale. Negli atti della conferenza IEEE sulla visione artificiale e il riconoscimento dei modelli, Las Vegas, NV, USA, 27–30 giugno 2016; IEEE: Piscataway, NJ, Stati Uniti, 2016; pagine 779–788.

9. Wang, Z.; Guo, H. Ricerca sul rilevamento dei segnali stradali basato sulla rete neurale convoluzionale. Negli atti del 12° Simposio internazionale sulla comunicazione e interazione delle informazioni visive, Shanghai, Cina, 20–22 settembre 2019; pagine 1–5.

10. Han, C.; Gao, G.; Zhang, Y. Rilevamento di piccoli segnali stradali in tempo reale con RCNN più veloce rivisto. Multimedia. Strumenti Appl. 2019, 78,13263–13278. [RifCroce]

11. Zhang, J.; Huang, M.; Jin, X.; Li, X. Un algoritmo di rilevamento dei segnali stradali cinesi in tempo reale basato su YOLOv2 modificato. Algoritmi2017, 10, 127. [CrossRef]

12. Zhu, Z.; Liang, D.; Zhang, S.; Huang, X.; Li, B.; Hu, S. Rilevamento e classificazione dei segnali stradali in natura. Negli atti della conferenza IEEE su Computer Vision and Pattern Recognition 2016, Las Vegas, NV, USA, 27–30 giugno 2016; pp. 2110–2118.


For more information:1950477648nn@gmail.com





Potrebbe piacerti anche