Orientiertes Gradienten-Histogramm: Enthüllung des visuellen Bereichs: Erkundung des Histogramms mit orientierten Farbverläufen in der Bildverarbeitung
Von Fouad Sabry
()
Über dieses E-Book
Was ist ein Histogramm orientierter Gradienten?
In den Bereichen Computer Vision und Bildverarbeitung ist das Histogramm orientierter Gradienten (HOG) ein Merkmalsdeskriptor, der für diesen Zweck verwendet wird der Objekterkennung. Diese Technik wird verwendet, um die Anzahl der Instanzen der Gradientenausrichtung zu zählen, die in bestimmten Bereichen eines Bildes auftreten. Diese Technik ist vergleichbar mit Kantenorientierungs-Histogrammen, skaleninvarianten Merkmalstransformationsdeskriptoren und Formkontexten; Sie unterscheidet sich jedoch von diesen Methoden dadurch, dass sie auf einem dichten Gitter aus gleichmäßig verteilten Zellen berechnet wird und eine überlappende lokale Kontrastnormalisierung verwendet, um ein höheres Maß an Genauigkeit zu erreichen.
Wie Sie wollen Nutzen
(I) Erkenntnisse und Validierungen zu den folgenden Themen:
Kapitel 1: Histogramm orientierter Verläufe
Kapitel 2: Kantenerkennung
Kapitel 3: Skaleninvariante Feature-Transformation
Kapitel 4: Beschleunigte robuste Features
Kapitel 5: GLOH
Kapitel 6: Lokale binäre Muster
Kapitel 7: SCHNELL ausgerichtet und KURZ gedreht
Kapitel 8: Boosting (maschinelles Lernen)
Kapitel 9: Bildsegmentierung
Kapitel 10: Objekterkennung
(II) Beantwortung der häufigsten öffentlichen Fragen zum Histogramm mit orientierten Farbverläufen.
(III) Beispiele aus der Praxis für die Verwendung des Histogramms mit orientierten Farbverläufen in vielen Bereichen .
Für wen sich dieses Buch eignet
Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die über das Grundwissen oder die Informationen hinausgehen möchten jede Art von Histogramm mit orientierten Farbverläufen.
Mehr von Fouad Sabry lesen
Neue Technologien In Der Materialwissenschaft [German]
Ähnlich wie Orientiertes Gradienten-Histogramm
Titel in dieser Serie (100)
Multispektrale Bildgebung: Das Spektrum erschließen: Fortschritte in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildhistogramm: Visuelle Einblicke enthüllen und die Tiefen von Bildhistogrammen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenComputer Vision: Erkundung der Tiefen des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAffine Transformation: Visuelle Perspektiven freischalten: Erforschung der affinen Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildkompression: Effiziente Techniken zur visuellen Datenoptimierung Bewertung: 0 von 5 Sternen0 BewertungenLärmminderung: Verbesserung der Klarheit, fortschrittliche Techniken zur Rauschunterdrückung in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenTonzuordnung: Tone Mapping: Erhellende Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenInpainting: Überbrückung von Lücken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenUnterwasser-Computervision: Erkundung der Tiefen der Computer Vision unter den Wellen Bewertung: 0 von 5 Sternen0 BewertungenFarbraum: Erkundung des Spektrums von Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRetinex: Enthüllen Sie die Geheimnisse des computergestützten Sehens mit Retinex Bewertung: 0 von 5 Sternen0 BewertungenHough-Transformation: Enthüllung der Magie der Hough-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenFilterbank: Einblicke in die Filterbanktechniken von Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGemeinsame Fotoexpertengruppe: Erschließen Sie das Potenzial visueller Daten mit dem JPEG-Standard Bewertung: 0 von 5 Sternen0 BewertungenHadamard-Transformation: Enthüllung der Leistungsfähigkeit der Hadamard-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGamma-Korrektur: Verbesserung der visuellen Klarheit in der Computer Vision: Die Gammakorrekturtechnik Bewertung: 0 von 5 Sternen0 BewertungenRadon-Transformation: Aufdecken verborgener Muster in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenHomographie: Homographie: Transformationen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAnisotrope Diffusion: Verbesserung der Bildanalyse durch anisotrope Diffusion Bewertung: 0 von 5 Sternen0 BewertungenFarbanpassungsfunktion: Spektrale Empfindlichkeit in Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenHistogrammausgleich: Verbesserung des Bildkontrasts für eine verbesserte visuelle Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenModell des menschlichen visuellen Systems: Wahrnehmung und Verarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenEpipolare Geometrie: Erschließung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenFarbmanagementsystem: Optimierung der visuellen Wahrnehmung in digitalen Umgebungen Bewertung: 0 von 5 Sternen0 BewertungenAdaptiver Filter: Verbesserung der Computer Vision durch adaptive Filterung Bewertung: 0 von 5 Sternen0 BewertungenDirekte lineare Transformation: Praktische Anwendungen und Techniken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGeometrisches Hashing: Effiziente Algorithmen zur Bilderkennung und -anpassung Bewertung: 0 von 5 Sternen0 BewertungenCanny Edge Detector: Enthüllung der Kunst der visuellen Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenKonturerkennung: Enthüllung der Kunst der visuellen Wahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 Bewertungen
Ähnliche E-Books
Blob-Erkennung: Aufdecken von Mustern in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenSkalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildsegmentierung: Erkenntnisse durch Pixelpräzision erschließen Bewertung: 0 von 5 Sternen0 BewertungenDigitale Rastergrafik: Enthüllung der Leistungsfähigkeit digitaler Rastergrafiken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRastergrafik-Editor: Visuelle Realitäten transformieren: Rastergrafik-Editoren in Computer Vision beherrschen Bewertung: 0 von 5 Sternen0 BewertungenFarbzuordnung: Erforschung der visuellen Wahrnehmung und Analyse in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAktives Erscheinungsmodell: Erschließung der Leistungsfähigkeit aktiver Darstellungsmodelle in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenHistogrammausgleich: Verbesserung des Bildkontrasts für eine verbesserte visuelle Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenBildhistogramm: Visuelle Einblicke enthüllen und die Tiefen von Bildhistogrammen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenKantenerkennung: Grenzen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenAutomatische Zielerkennung: Fortschritte in Computer-Vision-Techniken zur Zielerkennung Bewertung: 0 von 5 Sternen0 BewertungenComputer-Vision-Grafikschnitte: Erforschung von Graphschnitten in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRastergrafiken: Die Grundlagen der Rastergrafik in der Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenTonzuordnung: Tone Mapping: Erhellende Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenVektorgrafik-Editor: Ermöglichen Sie die visuelle Erstellung mit fortschrittlichen Algorithmen Bewertung: 0 von 5 Sternen0 BewertungenAnisotrope Diffusion: Verbesserung der Bildanalyse durch anisotrope Diffusion Bewertung: 0 von 5 Sternen0 BewertungenVertex-Computergrafik: Erkundung der Schnittstelle zwischen Vertex Computer Graphics und Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGouraud-Schattierung: Gouraud-Shading: Erhellende Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenLernen geometrischer Merkmale: Visuelle Einblicke durch das Lernen geometrischer Merkmale erschließen Bewertung: 0 von 5 Sternen0 BewertungenBump-Mapping: Bump Mapping: Erforschung der Tiefe der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBestimmung verdeckter Oberflächen: Enthüllung der Geheimnisse des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenPhong Schattierung: Erkundung der Tiefe des visuellen Renderings: Phong-Schattierung in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenApproximation der Lösungen von Differentialgleichungen mit Wavelets und Einstellung der Parameter Bewertung: 0 von 5 Sternen0 BewertungenHough-Transformation: Enthüllung der Magie der Hough-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSynthese anzeigen: Erkundung von Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBündelanpassung: Optimieren visueller Daten für eine präzise Rekonstruktion Bewertung: 0 von 5 Sternen0 BewertungenCanny Edge Detector: Enthüllung der Kunst der visuellen Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenPolygon-Computergrafik: Erkundung der Schnittstelle zwischen Polygon-Computergrafik und Computer Vision Bewertung: 0 von 5 Sternen0 Bewertungen
Künstliche Intelligenz (KI) & Semantik für Sie
Wissen statt Glauben!: Das Weltbild des neuen Humanismus Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Medien-Gestaltung leicht gemacht: Von der Idee zum viralen Hit Bewertung: 0 von 5 Sternen0 BewertungenKI-Innovationen: Wie die Technologie die Grenzen verschiebt Künstliche Intelligenz verstehen und nutzen: Ein AI-Buch Bewertung: 0 von 5 Sternen0 BewertungenDie Zukunft der Arbeit: Digitalisierung, Automatisierung, KI Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz: Die vierte industrielle Revolution Bewertung: 0 von 5 Sternen0 BewertungenDie KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen Bewertung: 1 von 5 Sternen1/5ChatGPT – Für Einsteiger: Schreibprofi mit KI, Zeit und Geld sparen ohne peinliche Fehler Bewertung: 0 von 5 Sternen0 BewertungenMeistern von ChatGPT: Entriegeln Sie die Kraft der KI für verbesserte Kommunikation und Beziehungen: German Bewertung: 0 von 5 Sternen0 BewertungenRoboter im Alltag: Maschinen (beinahe) wie Menschen Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Epische Reise des Erfolgs - 'Steigern Sie Ihren Reichtum': Mit Screenshots aus dem echten Leben - Erreichen Sie finanzielle Höhen Bewertung: 0 von 5 Sternen0 BewertungenPsychologie des Sozialismus Bewertung: 0 von 5 Sternen0 BewertungenEinstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5 Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Landingpages: Wie du deine Konkurrenz in den digitalen Staub schicken Bewertung: 0 von 5 Sternen0 BewertungenAufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz in Sozialen Medien Bewertung: 0 von 5 Sternen0 BewertungenMenschlicher Geist und Künstliche Intelligenz: Die Entwicklung des Humanen inmitten einer digitalen Welt Bewertung: 0 von 5 Sternen0 BewertungenDigitalotopia: Sind wir bereit für die (R)Evolution der Wirklichkeit? Bewertung: 0 von 5 Sternen0 Bewertungen
Rezensionen für Orientiertes Gradienten-Histogramm
0 Bewertungen0 Rezensionen
Buchvorschau
Orientiertes Gradienten-Histogramm - Fouad Sabry
Kapitel 1: Histogramm der orientierten Gradienten
In der maschinellen Bildverarbeitung und Bildverarbeitung ist das Histogramm orientierter Gradienten (HOG) ein Merkmalsdeskriptor, der für die Objekterkennung verwendet wird. Diese Methode verwendet die Richtung von Farbverläufen in diskreten Bereichen eines Bildes, um deren Vorkommen zu zählen. Im Vergleich zu Kantenorientierungshistogrammen, skaleninvarianten Merkmalstransformationsdeskriptoren und Formkontexten ist dieses Verfahren genauer, da es auf einem dichten Gitter mit gleichmäßig verteilten Zellen berechnet wird und eine überlappende lokale Kontrastnormalisierung verwendet.
Die Ideen von HOG wurden erstmals 1986 von Robert K. McConnell von Wayland Research Inc. ohne den Spitznamen HOG skizziert. Es dauerte jedoch bis 2005, als die Forscher Navneet Dalal und Bill Triggs vom französischen Nationalen Institut für Forschung in Informatik und Automatisierung (INRIA) ihre zusätzlichen Arbeiten zu HOG-Deskriptoren auf der Conference on Computer Vision and Pattern Recognition vorstellten, dass diese weithin angenommen wurden (CVPR). Sie konzentrierten sich zunächst auf die Fußgängererkennung in Standbildern, haben ihre Tests aber später auf die Personenerkennung in Videos sowie auf die Erkennung einer Vielzahl von gewöhnlichen Tieren und Fahrzeugen in Standbildern ausgeweitet.
Das Histogramm der gerichteten Farbverläufe basiert auf der Idee, dass das Aussehen und die Form von Objekten auf lokaler Ebene innerhalb eines Bildes durch die Verteilung von Intensitätsgradienten oder Kantenrichtungen dargestellt werden können. Für jedes Pixel im Bild wird ein Histogramm mit Verlaufsrichtungen erstellt, indem es in kleine zusammenhängende Abschnitte unterteilt wird, die als Zellen bezeichnet werden. Die Kombination dieser Histogramme zu einer einzigen Metrik dient als Beschreibung. Die lokalen Histogramme können kontrastnormalisiert werden, um die Genauigkeit zu erhöhen, indem zuerst ein Intensitätsmaß für einen größeren Teil des Bildes (einen Block) berechnet und dann dieser Wert verwendet wird, um alle Zellen innerhalb des Blocks zu normalisieren. Das Ergebnis dieser Standardisierung ist eine erhöhte Beständigkeit gegen helle und dunkle Flecken.
Mehrere wesentliche Vorteile heben die HOG-Beschreibung von ihren Mitbewerbern ab. Da es sich nur auf Zellen in der Nähe auswirkt, bleibt es bei Änderungen des Maßstabs oder der Beleuchtung unverändert, mit Ausnahme der Drehung. Nur in größeren geografischen Gebieten würden wir diese Art von Verschiebungen sehen. Darüber hinaus fanden Dalal und Triggs heraus, dass, solange Fußgänger ihren Körper in einer annähernd aufrechten Position halten, ihre Bewegung dank grober räumlicher Abtastung, feiner Orientierungsabtastung und starker lokaler photometrischer Normalisierung ignoriert werden kann. Aus diesem Grund zeichnet sich der HOG-Deskriptor dadurch aus, dass er Personen in Bildern findet.
Bei vielen Merkmalsdetektoren ist die Normalisierung von Farb- und Gammawerten der erste Schritt der Berechnung in der Bildvorverarbeitung. Bei der Berechnung von HOG-Deskriptoren argumentieren Dalal und Triggs jedoch, dass dieser Schritt unnötig ist, da die anschließende Deskriptornormalisierung das gleiche Ziel erreicht. Daher hat die Vorverarbeitung von Bildern einen vernachlässigbaren Einfluss auf die Leistung. Stattdessen steht die Berechnung der Gradientenwerte an erster Stelle. Das Anwenden der 1-dimensional zentrierten, punktdiskreten Ableitungsmaske in horizontaler oder vertikaler Richtung ist die typischste Methode. Damit diese Technik funktioniert, müssen die Farb- oder Intensitätsdaten des Bildes mit den folgenden Kernels gefiltert werden:
{\displaystyle [-1,0,1]{\text{ and }}[-1,0,1]^{\top }.\,}Während Dalal und Triggs ausgeklügeltere Masken wie die 3x3-Sobel-Maske und diagonale Masken verwendeten, stellten sie fest, dass sie bei der Identifizierung von Personen auf Fotos weniger effektiv waren. Sie versuchten auch, vor dem Auftragen der abgeleiteten Maske einen Gaußschen Glätter zu verwenden, stellten aber fest, dass überhaupt keine Glättung tatsächlich zu besseren Ergebnissen führte.
Die Zellhistogramme werden als zweite Stufe des Prozesses generiert.
Jedes Pixel in der Zelle verwendet die Farbverlaufswerte, um eine gewichtete Stimme für einen Abschnitt im Histogramm abzugeben, der auf der Ausrichtung basiert.
Die Zellen selbst können eine quadratische oder kreisförmige Konfiguration annehmen, und die Kanäle des Histogramms erstrecken sich über einen einheitlichen Zeitraum von 0 bis 180 oder 0 bis 360 Grad, je nachdem, ob der Farbverlauf vorzeichenlos
oder vorzeichenbehaftet
ist.
Die besten Ergebnisse in Human-Detection-Versuchen von Dalal und Triggs wurden erzielt, wenn vorzeichenlose Gradienten mit 9 Histogrammkanälen kombiniert wurden, wobei darauf hingewiesen wurde, dass vorzeichenbehaftete Gradienten die Objekterkennung für andere Kategorien auf die gleiche Weise wie für Autos und Motorräder erheblich verbessern.
In Bezug auf die Wichtigkeit jeder Abstimmung können Pixel entweder die Größe des Farbverlaufs oder eine Skala oder Funktion der Größe beitragen.
In Tests werden die besten Ergebnisse in der Regel erzielt, wenn man sich nur auf die Gradientengröße konzentriert.
Die Quadratwurzel oder das Quadrat der Größe des Farbverlaufs sind zwei weitere mögliche Maße für das Stimmengewicht oder ein abgeschnittenes Maß desselben.
Die Gradientenstärken müssen lokal normalisiert werden, um Variationen in Beleuchtung und Kontrast zu berücksichtigen, was eine Clusterung der Zellen in größere, geografisch verbundene Blöcke erfordert. Schließlich ist der HOG-Deskriptor die Vektorsumme der Komponenten der normalisierten Zellhistogramme für jeden Block. Jede Zelle trägt aufgrund der Überlappung dieser Blöcke oft auf mehr als eine Weise zur endgültigen Beschreibung bei. Die gebräuchlichsten Formen für Blöcke sind quadratisch oder rechteckig für R-HOG-Blöcke und kreisförmig für C-HOG-Blöcke. R-HOG-Blöcke sind in der Regel quadratische Raster, bei denen die Zellenanzahl, die Pixelanzahl und die Anzahl der Histogrammkanäle die definierenden Merkmale sind. Vier 8x8 Pixelzellen pro Block (16x16 Pixel Block) mit 9 Histogrammkanälen erwiesen sich in dem von Dalal und Triggs durchgeführten Experiment mit menschlicher Detektion als am besten. Darüber hinaus entdeckten sie, dass die Leistung leicht verbessert werden kann, wenn ein Gaußscher räumlicher Rahmen innerhalb jedes Blocks verwendet wird, bevor Histogramm-Stimmen gezählt werden, um den Pixeln in der Nähe der Blockkanten weniger Gewicht zu verleihen. Obwohl die R-HOG-Blöcke und die SIFT-Deskriptoren (Scale-Invariant Feature Transform) auf den ersten Blick ähnlich aussehen mögen, sind sie unterschiedlich geformt. SIFT-Deskriptoren werden in der Regel an spärlichen, skaleninvarianten Schlüsselbildpunkten berechnet und gedreht, um die Ausrichtung auszurichten, während R-HOG-Blöcke in dichten Rastern auf einer einzigen Skala ohne Orientierungsausrichtung berechnet werden. Darüber hinaus werden die R-HOG-Blöcke im Gegensatz zu SIFT-Deskriptoren, die allein verwendet werden, zusammen verwendet, um räumliche Forminformationen darzustellen.
Es gibt zwei verschiedene Arten von kreisförmigen HOG-Blöcken (C-HOG): solche mit einer einzigen zentralen Zelle und solche mit eckig geteilten Zellen. Die vier Faktoren, die diese C-HOG-Blöcke charakterisieren, sind die Anzahl der eckigen und radialen Behälter, der Radius des mittleren