Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision
Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision
Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision
eBook131 Seiten1 Stunde

Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist Scale Invariant Feature Transform


SIFT, was für Scale-invariant Feature Transform steht, ist eine Methode für Computer Vision, die 1999 von David Lowe entwickelt wurde Der Zweck besteht darin, lokale Merkmale in Bildern zu identifizieren, zu beschreiben und mit ihnen in Einklang zu bringen. Zu den Anwendungen, die genutzt werden können, gehören Objekterkennung, Roboterkartierung und -navigation, Bildzusammenfügung, dreidimensionale Modellierung, Gestenerkennung, Videoverfolgung, individuelle Identifizierung von Wildtieren und Match-Movement.


Wie Sie davon profitieren


(I) Einblicke und Validierungen zu den folgenden Themen:


Kapitel 1: Skalierungsinvariante Feature-Transformation


Kapitel 2: Kantenerkennung


Kapitel 3: Skalierungsraum


Kapitel 4: Gaußsche Unschärfe


Kapitel 5: Funktion (Computer Vision)


Kapitel 6: Eckenerkennung


Kapitel 7: Affine Formanpassung


Kapitel 8: Hessischer affiner Regionendetektor


Kapitel 9: Hauptkrümmungsbasierter Regionendetektor


Kapitel 10: SCHNELL orientiert und KURZ gedreht


(II) Beantwortung der häufigsten öffentlichen Fragen zur skaleninvarianten Merkmalstransformation.


(III) Beispiele aus der Praxis für die Verwendung von skaleninvarianter Merkmalstransformation in vielen Bereichen.


Für wen dieses Buch gedacht ist


Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die es wollen um über das Grundwissen oder die Informationen für jede Art von skaleninvarianter Merkmalstransformation hinauszugehen.


 


 

SpracheDeutsch
Erscheinungsdatum30. Apr. 2024
Skalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision

Mehr von Fouad Sabry lesen

Ähnlich wie Skalierungsinvariante Feature-Transformation

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Skalierungsinvariante Feature-Transformation

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Skalierungsinvariante Feature-Transformation - Fouad Sabry

    Kapitel 1: Skaleninvariante Feature-Transformation

    David Lowe entwickelte 1999 die skaleninvariante Merkmalstransformation (SIFT) als Computer-Vision-Algorithmus zum Auffinden, Charakterisieren und Abgleichen lokaler Merkmale in Bildern. Objekterkennung, robotergestützte Kartierung und Navigation, Bildzusammenfügen, dreidimensionale Modellierung, Gestenerkennung, Videoverfolgung, individuelle Wildtierbestimmung und Matchmaking sind nur einige der vielen Einsatzmöglichkeiten für diese Technologie.

    Objekt-SIFT-Schlüsselpunkte werden zunächst aus einem Trainingssatz von Bildern extrahiert.

    Es ist möglich, eine Merkmalsbeschreibung eines beliebigen Objekts in einem Bild zu erstellen, indem Schlüsselpunkte über dieses Objekt isoliert werden. Wenn Sie versuchen, ein Objekt in einem Testbild mit vielen anderen Objekten zu finden, kann diese Beschreibung verwendet werden, da sie aus einem Trainingsbild extrahiert wurde. Die aus dem Trainingsbild extrahierten Merkmale müssen trotz unterschiedlicher Bildskala, Rauschen und Beleuchtung erkennbar sein, wenn eine zuverlässige Erkennung erreicht werden soll. Diese Flecken befinden sich in der Regel an Bildrändern oder anderen Bereichen mit hohem Kontrast.

    Darüber hinaus sollten diese Features von einem Bild zum nächsten die gleichen relativen Positionen beibehalten wie in der Originalszene. Wenn nur die vier Ecken einer Tür als Merkmale verwendet würden, würde die Erkennung gelingen, unabhängig davon, ob die Tür offen oder geschlossen ist. Wenn jedoch auch Punkte im Rahmen verwendet würden, würde die Erkennung in beiden Fällen fehlschlagen. Wenn sich die interne Geometrie eines artikulierten oder flexiblen Objekts zwischen zwei Bildern in dem zu verarbeitenden Satz ändert, funktionieren die in diesem Objekt befindlichen Features wahrscheinlich nicht mehr. Während diese lokalen Variationen einen erheblichen Einfluss auf den durchschnittlichen Fehler aller Merkmalsübereinstimmungsfehler haben können, erkennt und verwendet SIFT in der Praxis eine viel größere Anzahl von Merkmalen aus den Bildern, wodurch ihre Auswirkungen abgeschwächt werden.

    Dieser Abschnitt bietet einen kurzen Überblick über den ursprünglichen SIFT-Algorithmus und erläutert kurz einige alternative Methoden zur Objekterkennung in Umgebungen mit vielen Hintergrundgeräuschen oder verdeckten Ansichten.

    Der SIFT-Deskriptor verwendet rezeptive Feldmessungen, um Bilder zu analysieren.

    Lokale Bildmerkmale können bei der Objekterkennung helfen, wenn sie erkannt und beschrieben werden können. Die SIFT-Features werden durch das Ändern der Größe oder Drehen des Bildes nicht beeinflusst, da sie auf dem Erscheinungsbild des Objekts an diskreten Interessenpunkten basieren. Sie halten geringfügigen Verschiebungen des Blickwinkels sowie Schwankungen in Beleuchtung und Rauschen stand. Sie ermöglichen auch eine genaue Objektidentifikation mit einer geringen Wahrscheinlichkeit einer Fehlanpassung, und sie sind hochgradig einzigartig und einfach zu extrahieren. Die hohe Dimensionalität kann jedoch ein Problem darstellen, so dass in der Regel probabilistische Algorithmen wie k-d-Bäume mit Best-Bin-First-Suche verwendet werden. Sie lassen sich leicht mit einer (großen) Datenbank lokaler Features abgleichen. Es werden nur drei SIFT-Merkmale von einem Objekt benötigt, um seine Position und Pose zu berechnen, wodurch Objektbeschreibungen, die auf Sätzen von SIFT-Merkmalen basieren, robust gegenüber teilweiser Okklusion sind. Bei relativ kleinen Datenbanken und mit der heutigen Rechenleistung kann die Erkennung fast sofort erfolgen.

    Mit dem Lowe-Ansatz wird ein Bild in eine große Menge von Merkmalsvektoren umgewandelt, die robust gegenüber lokaler geometrischer Verzerrung sind, während sie immer noch invariant gegenüber Bildübersetzung, Skalierung und Drehung und, in geringerem Maße, Änderungen der Beleuchtung sind. Die Neuronen im primären visuellen Kortex, die die grundlegende Form, Farbe und Bewegung für die Objekterkennung beim Primatensehen kodieren, haben ähnliche Eigenschaften wie diese Merkmale. Maxima und Minimums der Differenz der Gauß-Funktion, die im Maßstabsraum auf eine Reihe von geglätteten und neu berechneten Bildern angewendet wird, werden verwendet, um Schlüsselpositionen zu definieren. Kandidaten- und Kantenreaktionspunkte mit geringem Kontrast entlang einer Kante werden eliminiert. Orientierungen erhalten ihre dominanten Orientierungen an bestimmten Knoten. Wenn Sie diese Verfahren befolgen, wird der Abgleich und die Erkennung genauer. Durch die Berücksichtigung von Pixeln innerhalb eines Radius um die Schlüsselposition, Unschärfe und Resampling lokaler Bildausrichtungsebenen können wir SIFT-Deskriptoren erhalten, die robust gegenüber lokaler affiner Verzerrung sind.

    Bei der Indizierung speichern Sie SIFT-Schlüssel und verwenden das neue Image, um übereinstimmende Schlüssel zu finden. Um zu bestimmen, ob ein Kandidat behalten oder rausgeworfen werden sollte, verwendete Lowe eine Variante des k-d-Baum-Algorithmus, die als Best-Bin-First-Suchmethode bezeichnet wird. Bei dieser Methode wird der Abstand zwischen dem Merkmalsvektor des Kandidaten und dem Merkmalsvektor des nächstgelegenen Schlüsselpunkts verglichen, der nicht zur gleichen Objektklasse wie der vorliegende Kandidat gehört (Kandidatenmerkmalsvektor / nächstgelegener Merkmalsvektor anderer Klasse). Wenn das Verhältnis größer als 0,8 ist, wird es automatisch disqualifiziert. Durch den Einsatz dieser Technik konnten wir 90 % der Fehlalarme beseitigen und gleichzeitig 5 % der tatsächlichen Treffer verwerfen. Der Best-Bin-First-Suchalgorithmus wurde optimiert, indem er nach dem Testen der 200 nächsten Nachbarn gestoppt wurde. Diese Methode ist etwa zwei Größenordnungen schneller als die Suche nach dem exakten nächsten Nachbarn für eine Datenbank mit 100.000 Schlüsselpunkten, mit einem Verlust von weniger als 5 % bei der Anzahl der richtigen Übereinstimmungen.

    Um Schlüssel zu finden, die einer bestimmten Modellpose entsprechen, wird die Hough-Transformation verwendet, um glaubwürdige Hypothesen über das Modell zu gruppieren. Dadurch, dass jedes Merkmal eine Stimme für alle Objektposen abgibt, die mit dem Merkmal konsistent sind, ist die Hough-Transformation in der Lage, Cluster von Merkmalen mit einer konsistenten Interpretation zu identifizieren. Es besteht eine viel höhere Wahrscheinlichkeit, dass die Interpretation korrekt ist, wenn mehrere Merkmale gefunden werden, die für die gleiche Pose eines Objekts stimmen. Basierend auf der Übereinstimmungshypothese wird ein Hashtabelleneintrag generiert, der die Position, Ausrichtung und Größe des Modells vorhersagt. Alle Cluster mit mindestens drei Einträgen in einem Abschnitt werden in der Hashtabelle nachgeschlagen, und die Abschnitte werden dann vom größten zum kleinsten sortiert.

    Jeder SIFT-Schlüsselpunkt enthält Informationen über seine 2D-Position, -Größe und -Ausrichtung, und die Datenbank verfolgt diese Parameter für jeden Schlüsselpunkt, der eine übereinstimmende Instanz im Trainingssatz hat. Ein 3D-Objekt hat 6 Freiheitsgrade in seinem Posenraum, und die Ähnlichkeitstransformation, die durch diese 4 Parameter impliziert wird, berücksichtigt nur starre Transformationen. Dementsprechend wurden 30-Grad-Abschnitte für die Orientierung, 2x für die Skalierung und 0,25x für die Position (maximale projizierte Trainingsbilddimension unter Verwendung des vorhergesagten Maßstabs) verwendet. Den SIFT-Schlüsselproben, die im größeren Maßstab erzeugt werden, wird doppelt so viel Aufmerksamkeit geschenkt wie im kleineren Maßstab. Dies impliziert, dass die größere Skala die wahrscheinlichsten Nachbarn für weitere Untersuchungen auf der kleineren Skala auswählen kann. Dies ist hilfreich für die Erkennung, da es der Waage mit dem geringsten Rauschen mehr Gewicht verleiht. Jede Schlüsselpunktübereinstimmung grenzt die 16 möglichen Hypothesen auf die beiden nächstgelegenen Abschnitte in jeder Dimension ein, wodurch die Auswirkungen von Randeffekten bei der Abschnittszuweisung reduziert werden.

    Die identifizierten Cluster werden einem Verifikationsprozess unterzogen, bei dem eine lineare Lösung der kleinsten Quadrate für die affinen Transformationsparameter berechnet wird, die das Modell mit dem

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1