Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision
Von Fouad Sabry
()
Über dieses E-Book
Was ist Scale Invariant Feature Transform
SIFT, was für Scale-invariant Feature Transform steht, ist eine Methode für Computer Vision, die 1999 von David Lowe entwickelt wurde Der Zweck besteht darin, lokale Merkmale in Bildern zu identifizieren, zu beschreiben und mit ihnen in Einklang zu bringen. Zu den Anwendungen, die genutzt werden können, gehören Objekterkennung, Roboterkartierung und -navigation, Bildzusammenfügung, dreidimensionale Modellierung, Gestenerkennung, Videoverfolgung, individuelle Identifizierung von Wildtieren und Match-Movement.
Wie Sie davon profitieren
(I) Einblicke und Validierungen zu den folgenden Themen:
Kapitel 1: Skalierungsinvariante Feature-Transformation
Kapitel 2: Kantenerkennung
Kapitel 3: Skalierungsraum
Kapitel 4: Gaußsche Unschärfe
Kapitel 5: Funktion (Computer Vision)
Kapitel 6: Eckenerkennung
Kapitel 7: Affine Formanpassung
Kapitel 8: Hessischer affiner Regionendetektor
Kapitel 9: Hauptkrümmungsbasierter Regionendetektor
Kapitel 10: SCHNELL orientiert und KURZ gedreht
(II) Beantwortung der häufigsten öffentlichen Fragen zur skaleninvarianten Merkmalstransformation.
(III) Beispiele aus der Praxis für die Verwendung von skaleninvarianter Merkmalstransformation in vielen Bereichen.
Für wen dieses Buch gedacht ist
Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die es wollen um über das Grundwissen oder die Informationen für jede Art von skaleninvarianter Merkmalstransformation hinauszugehen.
Mehr von Fouad Sabry lesen
Ähnlich wie Skalierungsinvariante Feature-Transformation
Titel in dieser Serie (100)
Inpainting: Überbrückung von Lücken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildhistogramm: Visuelle Einblicke enthüllen und die Tiefen von Bildhistogrammen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenLärmminderung: Verbesserung der Klarheit, fortschrittliche Techniken zur Rauschunterdrückung in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenTonzuordnung: Tone Mapping: Erhellende Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAffine Transformation: Visuelle Perspektiven freischalten: Erforschung der affinen Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRadon-Transformation: Aufdecken verborgener Muster in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenUnterwasser-Computervision: Erkundung der Tiefen der Computer Vision unter den Wellen Bewertung: 0 von 5 Sternen0 BewertungenModell des menschlichen visuellen Systems: Wahrnehmung und Verarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenFarbprofil: Erforschung der visuellen Wahrnehmung und Analyse in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAktive Kontur: Weiterentwicklung der Computer Vision mit aktiven Konturtechniken Bewertung: 0 von 5 Sternen0 BewertungenHistogrammausgleich: Verbesserung des Bildkontrasts für eine verbesserte visuelle Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenAnisotrope Diffusion: Verbesserung der Bildanalyse durch anisotrope Diffusion Bewertung: 0 von 5 Sternen0 BewertungenHadamard-Transformation: Enthüllung der Leistungsfähigkeit der Hadamard-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRetinex: Enthüllen Sie die Geheimnisse des computergestützten Sehens mit Retinex Bewertung: 0 von 5 Sternen0 BewertungenAdaptiver Filter: Verbesserung der Computer Vision durch adaptive Filterung Bewertung: 0 von 5 Sternen0 BewertungenHough-Transformation: Enthüllung der Magie der Hough-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenFarbzuordnung: Erforschung der visuellen Wahrnehmung und Analyse in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer Vision: Erkundung der Tiefen des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildkompression: Effiziente Techniken zur visuellen Datenoptimierung Bewertung: 0 von 5 Sternen0 BewertungenAktives Erscheinungsmodell: Erschließung der Leistungsfähigkeit aktiver Darstellungsmodelle in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenCanny Edge Detector: Enthüllung der Kunst der visuellen Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenDirekte lineare Transformation: Praktische Anwendungen und Techniken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGamma-Korrektur: Verbesserung der visuellen Klarheit in der Computer Vision: Die Gammakorrekturtechnik Bewertung: 0 von 5 Sternen0 BewertungenFilterbank: Einblicke in die Filterbanktechniken von Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenHomographie: Homographie: Transformationen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenFarberscheinungsmodell: Wahrnehmung und Darstellung in Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenGemeinsame Fotoexpertengruppe: Erschließen Sie das Potenzial visueller Daten mit dem JPEG-Standard Bewertung: 0 von 5 Sternen0 BewertungenVisuelle Wahrnehmung: Einblicke in die computergestützte visuelle Verarbeitung Bewertung: 0 von 5 Sternen0 BewertungenBündelanpassung: Optimieren visueller Daten für eine präzise Rekonstruktion Bewertung: 0 von 5 Sternen0 Bewertungen
Ähnliche E-Books
Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse Bewertung: 0 von 5 Sternen0 BewertungenBlob-Erkennung: Aufdecken von Mustern in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenBildsegmentierung: Erkenntnisse durch Pixelpräzision erschließen Bewertung: 0 von 5 Sternen0 BewertungenKontextuelle Bildklassifizierung: Visuelle Daten für eine effektive Klassifizierung verstehen Bewertung: 0 von 5 Sternen0 BewertungenHarris Eckendetektor: Enthüllung der Magie der Bildmerkmalserkennung Bewertung: 0 von 5 Sternen0 BewertungenInhaltsbasierter Bildabruf: Visuelle Datenbanken freischalten Bewertung: 0 von 5 Sternen0 BewertungenSkalieren Sie den Raum: Erforschung von Dimensionen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenLernen geometrischer Merkmale: Visuelle Einblicke durch das Lernen geometrischer Merkmale erschließen Bewertung: 0 von 5 Sternen0 BewertungenAktives Erscheinungsmodell: Erschließung der Leistungsfähigkeit aktiver Darstellungsmodelle in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSynthese anzeigen: Erkundung von Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenOrientiertes Gradienten-Histogramm: Enthüllung des visuellen Bereichs: Erkundung des Histogramms mit orientierten Farbverläufen in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenKantenerkennung: Grenzen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenTüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern Bewertung: 0 von 5 Sternen0 BewertungenNeo4j 2.0: Eine Graphdatenbank für alle Bewertung: 0 von 5 Sternen0 BewertungenEigenface: Erkunden Sie die Tiefen der visuellen Erkennung mit Eigenface Bewertung: 0 von 5 Sternen0 BewertungenScan Linien Rendern: Erforschung des visuellen Realismus durch Scan Linien Rendern Techniken Bewertung: 0 von 5 Sternen0 BewertungenSchatten: Erkundung visueller Bereiche mit Shader: Eine Reise in die Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGeometrisches Hashing: Effiziente Algorithmen zur Bilderkennung und -anpassung Bewertung: 0 von 5 Sternen0 BewertungenDreidimensionale Multi-View-Rekonstruktion: Fortgeschrittene Techniken zur räumlichen Wahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenObjekterkennung: Fortschritte, Anwendungen und Algorithmen Bewertung: 0 von 5 Sternen0 BewertungenMerkmalskonstruktion für Machine Learning: Prinzipien und Techniken der Datenaufbereitung Bewertung: 0 von 5 Sternen0 BewertungenBestimmung verdeckter Oberflächen: Enthüllung der Geheimnisse des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAphelion-Software: Vision freischalten: Erkundung der Tiefen der Aphelion-Software Bewertung: 0 von 5 Sternen0 BewertungenVolumen Rendern: Erforschung des Visuellen Realismus in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenDokumentmosaikierung: Visuelle Einblicke durch Dokumentmosaikierung erschließen Bewertung: 0 von 5 Sternen0 BewertungenVisuelles Wort: Erschließen Sie die Kraft des Bildverständnisses Bewertung: 0 von 5 Sternen0 BewertungenRastergrafik-Editor: Visuelle Realitäten transformieren: Rastergrafik-Editoren in Computer Vision beherrschen Bewertung: 0 von 5 Sternen0 Bewertungen
Künstliche Intelligenz (KI) & Semantik für Sie
Die Zukunft der Arbeit: Digitalisierung, Automatisierung, KI Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5 Bewertung: 0 von 5 Sternen0 BewertungenAufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen Bewertung: 0 von 5 Sternen0 BewertungenMenschlicher Geist und Künstliche Intelligenz: Die Entwicklung des Humanen inmitten einer digitalen Welt Bewertung: 0 von 5 Sternen0 BewertungenMeistern von ChatGPT: Entriegeln Sie die Kraft der KI für verbesserte Kommunikation und Beziehungen: German Bewertung: 0 von 5 Sternen0 BewertungenChatGPT – Für Einsteiger: Schreibprofi mit KI, Zeit und Geld sparen ohne peinliche Fehler Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz: Die vierte industrielle Revolution Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Medien-Gestaltung leicht gemacht: Von der Idee zum viralen Hit Bewertung: 0 von 5 Sternen0 BewertungenEinstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz in Sozialen Medien Bewertung: 0 von 5 Sternen0 BewertungenDie KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen Bewertung: 1 von 5 Sternen1/5Chatbotische Landingpages: Wie du deine Konkurrenz in den digitalen Staub schicken Bewertung: 0 von 5 Sternen0 BewertungenWissen statt Glauben!: Das Weltbild des neuen Humanismus Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Epische Reise des Erfolgs - 'Steigern Sie Ihren Reichtum': Mit Screenshots aus dem echten Leben - Erreichen Sie finanzielle Höhen Bewertung: 0 von 5 Sternen0 BewertungenKI-Innovationen: Wie die Technologie die Grenzen verschiebt Künstliche Intelligenz verstehen und nutzen: Ein AI-Buch Bewertung: 0 von 5 Sternen0 BewertungenDigitalotopia: Sind wir bereit für die (R)Evolution der Wirklichkeit? Bewertung: 0 von 5 Sternen0 BewertungenRoboter im Alltag: Maschinen (beinahe) wie Menschen Bewertung: 0 von 5 Sternen0 Bewertungen
Rezensionen für Skalierungsinvariante Feature-Transformation
0 Bewertungen0 Rezensionen
Buchvorschau
Skalierungsinvariante Feature-Transformation - Fouad Sabry
Kapitel 1: Skaleninvariante Feature-Transformation
David Lowe entwickelte 1999 die skaleninvariante Merkmalstransformation (SIFT) als Computer-Vision-Algorithmus zum Auffinden, Charakterisieren und Abgleichen lokaler Merkmale in Bildern. Objekterkennung, robotergestützte Kartierung und Navigation, Bildzusammenfügen, dreidimensionale Modellierung, Gestenerkennung, Videoverfolgung, individuelle Wildtierbestimmung und Matchmaking sind nur einige der vielen Einsatzmöglichkeiten für diese Technologie.
Objekt-SIFT-Schlüsselpunkte werden zunächst aus einem Trainingssatz von Bildern extrahiert.
Es ist möglich, eine Merkmalsbeschreibung
eines beliebigen Objekts in einem Bild zu erstellen, indem Schlüsselpunkte über dieses Objekt isoliert werden. Wenn Sie versuchen, ein Objekt in einem Testbild mit vielen anderen Objekten zu finden, kann diese Beschreibung verwendet werden, da sie aus einem Trainingsbild extrahiert wurde. Die aus dem Trainingsbild extrahierten Merkmale müssen trotz unterschiedlicher Bildskala, Rauschen und Beleuchtung erkennbar sein, wenn eine zuverlässige Erkennung erreicht werden soll. Diese Flecken befinden sich in der Regel an Bildrändern oder anderen Bereichen mit hohem Kontrast.
Darüber hinaus sollten diese Features von einem Bild zum nächsten die gleichen relativen Positionen beibehalten wie in der Originalszene. Wenn nur die vier Ecken einer Tür als Merkmale verwendet würden, würde die Erkennung gelingen, unabhängig davon, ob die Tür offen oder geschlossen ist. Wenn jedoch auch Punkte im Rahmen verwendet würden, würde die Erkennung in beiden Fällen fehlschlagen. Wenn sich die interne Geometrie eines artikulierten oder flexiblen Objekts zwischen zwei Bildern in dem zu verarbeitenden Satz ändert, funktionieren die in diesem Objekt befindlichen Features wahrscheinlich nicht mehr. Während diese lokalen Variationen einen erheblichen Einfluss auf den durchschnittlichen Fehler aller Merkmalsübereinstimmungsfehler haben können, erkennt und verwendet SIFT in der Praxis eine viel größere Anzahl von Merkmalen aus den Bildern, wodurch ihre Auswirkungen abgeschwächt werden.
Dieser Abschnitt bietet einen kurzen Überblick über den ursprünglichen SIFT-Algorithmus und erläutert kurz einige alternative Methoden zur Objekterkennung in Umgebungen mit vielen Hintergrundgeräuschen oder verdeckten Ansichten.
Der SIFT-Deskriptor verwendet rezeptive Feldmessungen, um Bilder zu analysieren.
Lokale Bildmerkmale können bei der Objekterkennung helfen, wenn sie erkannt und beschrieben werden können. Die SIFT-Features werden durch das Ändern der Größe oder Drehen des Bildes nicht beeinflusst, da sie auf dem Erscheinungsbild des Objekts an diskreten Interessenpunkten basieren. Sie halten geringfügigen Verschiebungen des Blickwinkels sowie Schwankungen in Beleuchtung und Rauschen stand. Sie ermöglichen auch eine genaue Objektidentifikation mit einer geringen Wahrscheinlichkeit einer Fehlanpassung, und sie sind hochgradig einzigartig und einfach zu extrahieren. Die hohe Dimensionalität kann jedoch ein Problem darstellen, so dass in der Regel probabilistische Algorithmen wie k-d-Bäume mit Best-Bin-First-Suche verwendet werden. Sie lassen sich leicht mit einer (großen) Datenbank lokaler Features abgleichen. Es werden nur drei SIFT-Merkmale von einem Objekt benötigt, um seine Position und Pose zu berechnen, wodurch Objektbeschreibungen, die auf Sätzen von SIFT-Merkmalen basieren, robust gegenüber teilweiser Okklusion sind. Bei relativ kleinen Datenbanken und mit der heutigen Rechenleistung kann die Erkennung fast sofort erfolgen.
Mit dem Lowe-Ansatz wird ein Bild in eine große Menge von Merkmalsvektoren umgewandelt, die robust gegenüber lokaler geometrischer Verzerrung sind, während sie immer noch invariant gegenüber Bildübersetzung, Skalierung und Drehung und, in geringerem Maße, Änderungen der Beleuchtung sind. Die Neuronen im primären visuellen Kortex, die die grundlegende Form, Farbe und Bewegung für die Objekterkennung beim Primatensehen kodieren, haben ähnliche Eigenschaften wie diese Merkmale. Maxima und Minimums der Differenz der Gauß-Funktion, die im Maßstabsraum auf eine Reihe von geglätteten und neu berechneten Bildern angewendet wird, werden verwendet, um Schlüsselpositionen zu definieren. Kandidaten- und Kantenreaktionspunkte mit geringem Kontrast entlang einer Kante werden eliminiert. Orientierungen erhalten ihre dominanten Orientierungen an bestimmten Knoten. Wenn Sie diese Verfahren befolgen, wird der Abgleich und die Erkennung genauer. Durch die Berücksichtigung von Pixeln innerhalb eines Radius um die Schlüsselposition, Unschärfe und Resampling lokaler Bildausrichtungsebenen können wir SIFT-Deskriptoren erhalten, die robust gegenüber lokaler affiner Verzerrung sind.
Bei der Indizierung speichern Sie SIFT-Schlüssel und verwenden das neue Image, um übereinstimmende Schlüssel zu finden. Um zu bestimmen, ob ein Kandidat behalten oder rausgeworfen
werden sollte, verwendete Lowe eine Variante des k-d-Baum-Algorithmus, die als Best-Bin-First-Suchmethode bezeichnet wird. Bei dieser Methode wird der Abstand zwischen dem Merkmalsvektor des Kandidaten und dem Merkmalsvektor des nächstgelegenen Schlüsselpunkts verglichen, der nicht zur gleichen Objektklasse wie der vorliegende Kandidat gehört (Kandidatenmerkmalsvektor / nächstgelegener Merkmalsvektor anderer Klasse). Wenn das Verhältnis größer als 0,8 ist, wird es automatisch disqualifiziert. Durch den Einsatz dieser Technik konnten wir 90 % der Fehlalarme beseitigen und gleichzeitig 5 % der tatsächlichen Treffer verwerfen. Der Best-Bin-First-Suchalgorithmus wurde optimiert, indem er nach dem Testen der 200 nächsten Nachbarn gestoppt wurde. Diese Methode ist etwa zwei Größenordnungen schneller als die Suche nach dem exakten nächsten Nachbarn für eine Datenbank mit 100.000 Schlüsselpunkten, mit einem Verlust von weniger als 5 % bei der Anzahl der richtigen Übereinstimmungen.
Um Schlüssel zu finden, die einer bestimmten Modellpose entsprechen, wird die Hough-Transformation verwendet, um glaubwürdige Hypothesen über das Modell zu gruppieren. Dadurch, dass jedes Merkmal eine Stimme für alle Objektposen abgibt, die mit dem Merkmal konsistent sind, ist die Hough-Transformation in der Lage, Cluster von Merkmalen mit einer konsistenten Interpretation zu identifizieren. Es besteht eine viel höhere Wahrscheinlichkeit, dass die Interpretation korrekt ist, wenn mehrere Merkmale gefunden werden, die für die gleiche Pose eines Objekts stimmen. Basierend auf der Übereinstimmungshypothese wird ein Hashtabelleneintrag generiert, der die Position, Ausrichtung und Größe des Modells vorhersagt. Alle Cluster mit mindestens drei Einträgen in einem Abschnitt werden in der Hashtabelle nachgeschlagen, und die Abschnitte werden dann vom größten zum kleinsten sortiert.
Jeder SIFT-Schlüsselpunkt enthält Informationen über seine 2D-Position, -Größe und -Ausrichtung, und die Datenbank verfolgt diese Parameter für jeden Schlüsselpunkt, der eine übereinstimmende Instanz im Trainingssatz hat. Ein 3D-Objekt hat 6 Freiheitsgrade in seinem Posenraum, und die Ähnlichkeitstransformation, die durch diese 4 Parameter impliziert wird, berücksichtigt nur starre Transformationen. Dementsprechend wurden 30-Grad-Abschnitte für die Orientierung, 2x für die Skalierung und 0,25x für die Position (maximale projizierte Trainingsbilddimension unter Verwendung des vorhergesagten Maßstabs) verwendet. Den SIFT-Schlüsselproben, die im größeren Maßstab erzeugt werden, wird doppelt so viel Aufmerksamkeit geschenkt wie im kleineren Maßstab. Dies impliziert, dass die größere Skala die wahrscheinlichsten Nachbarn für weitere Untersuchungen auf der kleineren Skala auswählen kann. Dies ist hilfreich für die Erkennung, da es der Waage mit dem geringsten Rauschen mehr Gewicht verleiht. Jede Schlüsselpunktübereinstimmung grenzt die 16 möglichen Hypothesen auf die beiden nächstgelegenen Abschnitte in jeder Dimension ein, wodurch die Auswirkungen von Randeffekten bei der Abschnittszuweisung reduziert werden.
Die identifizierten Cluster werden einem Verifikationsprozess unterzogen, bei dem eine lineare Lösung der kleinsten Quadrate für die affinen Transformationsparameter berechnet wird, die das Modell mit dem