Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse
Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse
Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse
eBook139 Seiten1 Stunde

Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist Pyramiden Bildverarbeitung?


Pyramide oder Pyramidendarstellung ist eine Art mehrskalige Signaldarstellung, die von den Bereichen Computer Vision, Bildverarbeitung und Signalverarbeitung entwickelt wurde und bei der ein Signal oder ein Bild einer wiederholten Glättung und Unterabtastung unterzogen wird. Die Pyramidendarstellung ist ein Vorläufer der Maßstabsraumdarstellung und der Analyse mit mehreren Auflösungen.


Wie Sie davon profitieren


(I) Erkenntnisse und Validierungen zu den folgenden Themen:


Kapitel 1: Pyramide (Bildverarbeitung)


Kapitel 2: Skalierungsinvariante Feature-Transformation


Kapitel 3: Gabor-Filter


Kapitel 4: Raum skalieren


Kapitel 5: Gaußsche Unschärfe


Kapitel 6: Funktion (Computer Vision)


Kapitel 7: Unterschied der Gauß-Funktionen


Kapitel 8: Eckenerkennung


Kapitel 9: Strukturtensor


Kapitel 10: Mittlere Verschiebung


(II) Beantwortung der häufigsten öffentlichen Fragen zur Pyramidenbildverarbeitung.


(III) Beispiele aus der Praxis für den Einsatz der Pyramidenbildverarbeitung in vielen Bereichen.


Für wen dieses Buch ist


Fachleute, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die über grundlegende Kenntnisse oder Informationen für jede Art von Pyramidenbildverarbeitung hinausgehen möchten.

SpracheDeutsch
Erscheinungsdatum11. Mai 2024
Pyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse

Mehr von Fouad Sabry lesen

Ähnlich wie Pyramiden Bildverarbeitung

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Pyramiden Bildverarbeitung

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Pyramiden Bildverarbeitung - Fouad Sabry

    Kapitel 1: Pyramide (Bildverarbeitung)

    Die Pyramidendarstellung, kurz Pyramide, ist eine Art Multiskalen-Signaldarstellung, die von Forschern in den Bereichen Computer Vision, Bildverarbeitung und Signalverarbeitung entwickelt wurde. Vor der Skalenraumdarstellung und der Multiresolution-Analyse gab es die Pyramidendarstellung.

    Pyramiden können in zwei große Kategorien unterteilt werden: Tiefpass und Bandpass.

    Nach dem Anwenden des erforderlichen Glättungsfilters auf das Bild wird eine Tiefpasspyramide erstellt, indem das Ergebnis sowohl in horizontaler als auch in vertikaler Richtung um den Faktor 2 abgetastet wird. Das resultierende Bild wird auf die gleiche Weise noch einmal verarbeitet, und dieser Zyklus wird mehrmals wiederholt. Nach mehreren Iterationen nimmt die Bildgröße ab, die Glätte verbessert sich, aber die räumliche Abtastdichte nimmt ab (d. h. die Bildauflösung nimmt ab). Visuell ähnelt die gesamte Darstellung in mehreren Maßstäben einer Pyramide, wobei das Originalbild an der Basis steht und die kleineren Bilder, die durch aufeinanderfolgende Zyklen erzeugt werden, darüber geschichtet sind.

    Um die Berechnung pixelweiser Unterschiede zu ermöglichen, wird eine Bandpasspyramide konstruiert, indem die Differenz zwischen Bildern auf aufeinanderfolgenden Ebenen in der Pyramide erzeugt und eine Bildinterpolation zwischen benachbarten Auflösungsstufen durchgeführt wird.

    Für die Pyramidengenerierung wurden viele Glättungskörner vorgeschlagen. Die heute leistungsfähigeren Prozessoren ermöglichen es, größere unterstützte Gaußsche Filter als Glättungskerne in den Pyramidenerstellungsprozessen zu verwenden.

    Nachfolgende Fotos in einer Gaußschen Pyramide werden verkleinert und mit einem Gaußschen Durchschnitt (Gaußsche Unschärfe) gewichtet. Jedes Nachbarschaftspixel in den unteren Ebenen der Pyramide wird durch ein Pixel mit einem lokalen Durchschnitt dargestellt. Diese Methode ist im Bereich der Textursynthese weit verbreitet.

    Ähnlich wie eine Gaußsche Pyramide speichert auch eine Laplace-Pyramide das Differenzbild zwischen den einzelnen Unschärfegraden. Um das hochauflösende Bild aus den Differenzfotos auf höheren Ebenen zu rekonstruieren, ist nur die niedrigste Ebene kein Differenzbild. Bilder können mit dieser Methode komprimiert werden.

    Simoncelli und andere erfanden die steuerbare Pyramide, eine Bandpassfilterbank mit mehreren Skalen und mehreren Ausrichtungen, die zur Bildkomprimierung, Texturerzeugung und Objekterkennung verwendet wird. Es ähnelt einer Laplace-Pyramide, aber anstatt auf jeder Ebene einen einzelnen Laplace- oder Gauß-Filter zu verwenden, wird eine Bank steuerbarer Filter verwendet.

    Pyramiden waren die primäre Multiskalendarstellung, die in der frühen Computer Vision zur Generierung von Multiskalen-Bildattributen aus Rohbilddaten verwendet wurde. Einige Forscher bevorzugen die Darstellung im Skalenraum aufgrund ihrer theoretischen Grundlage, der Möglichkeit, die Subsampling-Phase von der Multiskalendarstellung zu entkoppeln, robusterer Werkzeuge für die theoretische Analyse und der Fähigkeit, eine Darstellung in jedem gewünschten Maßstab zu berechnen, wodurch die algorithmischen Probleme der Beziehung von Bilddarstellungen bei unterschiedlichen Auflösungen vermieden werden. Pyramiden sind nicht mehr so beliebt wie früher, aber sie werden dennoch häufig eingesetzt, um recheneffiziente Annäherungen an die Darstellung des Maßstabsraums zu vermitteln.

    Laplace-Pyramiden ermöglichen die Verstärkung oder Reduzierung von Details in verschiedenen Maßstäben durch Hinzufügen oder Entfernen von Ebenen aus dem Quellbild. Es ist jedoch bekannt, dass diese Art der Detailmanipulation häufig zu Halo-Fehlern führt, was zur Erstellung von Alternativen wie dem bilateralen Filter führt.

    Der Adam7-Algorithmus wird zusammen mit anderen Interlacing-Techniken in bestimmten Bildkomprimierungsdateiformaten verwendet. Diese können als Pyramidenform für Visuals angesehen werden. Eine Datei kann viele Viewer-Auflösungen unterstützen, anstatt für jede Auflösung eine andere Datei speichern oder generieren zu müssen, da diese Dateiformate die großflächigen Features zuerst und die feinkörnigen Details später in der Datei speichern. Auf diese Weise kann ein bestimmter Viewer, der ein kleines Thumbnail oder auf einem kleinen Bildschirm anzeigt, schnell gerade genug vom Bild herunterladen, um es in den verfügbaren Pixeln anzuzeigen.

    {Ende Kapitel 1}

    Kapitel 2: Skalierungsinvariante Feature-Transformation

    David Lowe entwickelte 1999 die skaleninvariante Merkmalstransformation (SIFT) als Computer-Vision-Algorithmus zum Auffinden, Charakterisieren und Abgleichen lokaler Merkmale in Bildern. Objekterkennung, robotische Kartierung und Navigation, Bildzusammenfügung, dreidimensionale Modellierung, Gestenerkennung, Videoverfolgung, individuelle Wildtieridentifikation und Matchmaking sind nur einige der vielen Einsatzmöglichkeiten dieser Technologie.

    Objekt-SIFT-Schlüsselpunkte werden zunächst aus einem Trainingssatz von Bildern extrahiert.

    Es ist möglich, eine Merkmalsbeschreibung eines beliebigen Objekts in einem Bild zu erstellen, indem wichtige Punkte zu diesem Objekt isoliert werden. Wenn Sie versuchen, ein Objekt in einem Testbild mit vielen anderen Objekten zu finden, kann diese Beschreibung verwendet werden, da es aus einem Trainingsbild extrahiert wurde. Die aus dem Trainingsbild extrahierten Merkmale müssen trotz Variationen in Bildmaßstab, Rauschen und Beleuchtung erkennbar sein, wenn eine zuverlässige Erkennung erreicht werden soll. Diese Flecken befinden sich normalerweise an Bildrändern oder anderen Bereichen mit hohem Kontrast.

    Darüber hinaus sollten diese Features von einem Bild zum nächsten die gleichen relativen Positionen beibehalten wie in der Originalszene. Wenn nur die vier Ecken einer Tür als Merkmale verwendet würden, würde die Erkennung gelingen, unabhängig davon, ob die Tür offen oder geschlossen ist. Wenn jedoch auch Punkte im Rahmen verwendet würden, würde die Erkennung in beiden Fällen fehlschlagen. Wenn sich die interne Geometrie eines artikulierten oder flexiblen Objekts zwischen zwei Bildern in der zu verarbeitenden Menge ändert, funktionieren die in diesem Objekt befindlichen Features wahrscheinlich nicht mehr. Während diese lokalen Variationen einen erheblichen Einfluss auf den durchschnittlichen Fehler aller Feature-Matching-Fehler haben können, erkennt und verwendet SIFT in der Praxis eine viel größere Anzahl von Features aus den Bildern, was ihre Auswirkungen abmildert.

    Dieser Abschnitt bietet einen kurzen Überblick über den ursprünglichen SIFT-Algorithmus und erläutert kurz einige alternative Methoden zur Objekterkennung in Umgebungen mit vielen Hintergrundgeräuschen oder verdeckten Ansichten.

    Der SIFT-Deskriptor verwendet rezeptive Feldmessungen zur Analyse von Bildern.

    Lokale Bildmerkmale können bei der Objekterkennung helfen, wenn sie erkannt und beschrieben werden können. Die SIFT-Features werden durch Ändern der Größe oder Drehen des Bildes nicht beeinflusst, da sie auf der Darstellung des Objekts an diskreten Interessenpunkten basieren. Sie können geringfügigen Verschiebungen des Blickwinkels sowie Schwankungen der Beleuchtung und des Rauschens standhalten. Sie ermöglichen auch eine genaue Objektidentifikation mit einer geringen Wahrscheinlichkeit einer Nichtübereinstimmung, und sie sind sehr einzigartig und leicht zu extrahieren. Die hohe Dimensionalität kann jedoch ein Problem darstellen, daher werden in der Regel probabilistische Algorithmen wie k-d-Bäume mit der besten bin-first-Suche verwendet. Sie lassen sich einfach mit einer (großen) Datenbank mit lokalen Features abgleichen. Es werden nur drei SIFT-Merkmale eines Objekts benötigt, um seine Position und Pose zu berechnen, wodurch Objektbeschreibungen, die auf Sätzen von SIFT-Merkmalen basieren, robust gegenüber teilweiser Okklusion sind. Bei relativ kleinen Datenbanken und mit der heutigen Rechenleistung kann die Erkennung fast sofort erfolgen.

    Mit Lowes Ansatz wird ein Bild in eine große Menge von Merkmalsvektoren umgewandelt, die robust gegenüber lokaler geometrischer Verzerrung sind, während sie immer noch unveränderlich gegenüber Bildtranslation, Skalierung und Rotation und in geringerem Maße Änderungen der Beleuchtung sind. Die Neuronen im primären visuellen Kortex, die grundlegende Form, Farbe und Bewegung für die Objekterkennung im Primatensehen kodieren, haben ähnliche Eigenschaften wie diese Merkmale. Maxima und Minimums der Differenz der Gaußschen Funktion, die im Skalierungsraum auf eine Reihe von geglätteten und neu abgetasteten Bildern angewendet

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1