Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Computer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision
Computer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision
Computer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision
eBook139 Seiten1 Stunde

Computer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist Computer Stereo Vision?


Computer-Stereovision ist die Extraktion von 3D-Informationen aus digitalen Bildern, wie sie beispielsweise von einer CCD-Kamera aufgenommen werden. Durch den Vergleich von Informationen über eine Szene aus zwei Blickwinkeln können 3D-Informationen extrahiert werden, indem die relativen Positionen von Objekten in den beiden Panels untersucht werden. Dies ähnelt dem biologischen Prozess der Stereopsis.


Wie Sie davon profitieren


(I) Einblicke und Validierungen zu den folgenden Themen:


Kapitel 1: Computer-Stereovision


Kapitel 2: 3D-Rekonstruktion


Kapitel 3: Aktives Konturmodell


Kapitel 4: Harris-Detektor für affine Regionen


Kapitel 5: Vordergrunderkennung


Kapitel 6: Matrix Chernoff gebunden


Kapitel 7: Ähnlichkeit


Kapitel 8: Strukturelle Ähnlichkeit


Kapitel 9: Varianzfunktion


Kapitel 10: Fréchet-Anfangsentfernung


(II) Beantwortung der häufigsten öffentlichen Fragen zum Thema Computer-Stereovision.


(III) Beispiele aus der Praxis für den Einsatz von Computer-Stereovision in vielen Bereichen.


Für wen dieses Buch gedacht ist


Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die über grundlegende Kenntnisse oder Informationen für jede Art von Computer-Stereo-Vision hinausgehen möchten.


 


 

SpracheDeutsch
Erscheinungsdatum28. Apr. 2024
Computer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision

Mehr von Fouad Sabry lesen

Ähnlich wie Computer-Stereo-Vision

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Computer-Stereo-Vision

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Computer-Stereo-Vision - Fouad Sabry

    Kapitel 1: Computer-Stereo-Vision

    Das Ziel des Computer-Stereo-Sehens ist es, Tiefenkarten aus digitalen Bildern zu gewinnen, die z. B. von einer CCD-Kamera aufgenommen wurden. Das Extrahieren von 3D-Daten aus einer Szene umfasst das Vergleichen von Daten aus zwei Fenstern und das Betrachten der relativen Positionen von Elementen. Der biologische Prozess der Stereopsie ist analog dazu.

    Wie beim binokularen Sehen des Menschen werden auch beim klassischen Stereosehen zwei Kameras verwendet, die durch einen horizontalen Abstand voneinander getrennt sind, um zwei unterschiedliche Perspektiven auf eine Szene zu erfassen. Durch den Vergleich der beiden Fotos kann eine Disparitätskarte erstellt werden, die den Unterschied in den horizontalen Positionen der Punkte in den beiden Bildern und damit die relative Tiefe zwischen ihnen kodiert. Diese Disparitäts-Map enthält Werte, die umgekehrt proportional zur Tiefe der Szene an jedem einzelnen Pixel sind.

    Die Bilder müssen in einem stereoskopischen Gerät überlagert werden, wobei das Bild der rechten Kamera dem rechten Auge des Betrachters und das Bild der linken Kamera dem linken Auge des Betrachters gezeigt wird, damit eine Person einen Vergleich anstellen kann.

    In jedem Computer-Vision-System sind mehrere Vorprozesse obligatorisch.

    Bevor irgendetwas anderes mit dem Bild gemacht werden kann, muss es unverzerrt sein, was bedeutet, dass sowohl die tonnenförmige als auch die tangentiale Verzerrung entfernt wurden. So ist das gesehene Bild garantiert identisch mit dem, was eine perfekte Lochkamera projizieren würde.

    Bei der Bildentzerrung wird ein Bild zum direkten Vergleich auf eine Standardebene zurückgesetzt.

    Der Abstand zwischen den beiden Fotos wird mit Hilfe eines Informationsmaßes verringert. Dadurch wird eine Disparitätskarte generiert, d. h. die beste Schätzung der Position von Features zwischen den beiden Bildern.

    Aus der empfangenen Disparitätskarte wird eine 3D-Punktwolke generiert. Anhand der projektiven Eigenschaften der Kameras kann die Punktwolke berechnet werden, um skalierbare Messungen zu erhalten.

    Um die Komplexität des Stereo-Matching-Problems zu verringern, wird beim aktiven Stereo-Sehen ein Laser oder strukturiertes Licht verwendet. Aktives Stereosehen ist das Antonym.

    Die traditionelle Methode des Sehens mit strukturiertem Licht (SLV) nutzt einen Laser oder strukturiertes Licht, um Projektor-Kamera-Korrespondenzen herzustellen.

    Ähnlich wie beim passiven Stereosehen wird beim traditionellen aktiven Stereosehen (ASV) ein strukturiertes Licht oder ein Laser verwendet, aber es führt nur eine Stereoanpassung für Kamera-Kamera-Korrespondenzen durch.

    Sowohl Kamera-Kamera- als auch Projektor-Kamera-Korrespondenzen können in einem hybriden Verfahren verwendet werden.

    Es gibt eine Vielzahl von Anwendungen für 3D-Stereodisplays in den Bereichen Medien, Bildung und Fertigung. Die Extraktion von Informationen über die räumlichen Beziehungen zwischen 3D-Objekten in der Umgebung autonomer Systeme ist ein wichtiger Anwendungsfall für Stereovision in Bereichen wie der Robotik. Die Robotik hat weitere Anwendungsmöglichkeiten, wie z. B. die Objekterkennung, die auf Tiefeninformationen angewiesen ist, um Objekte zu identifizieren und zu isolieren, die sonst von benachbarten Objekten verdeckt würden, wie z. B. einem Stuhl vor einem anderen Stuhl.

    Digitales Stereosehen hat mehrere wissenschaftliche Anwendungen, darunter die Extraktion von Daten aus Luftaufnahmen, die Berechnung von Konturkarten und die Extraktion von Geometrie für die 3D-Gebäudekartierung und die photogrammetrische Satellitenkartierung.

    Pixel sind winzige Quadrate, die zum Aufzeichnen von Farbdaten verwendet werden. Die Koordinaten (x, y) in einem Pixelraster und der Abstand (z) zum jeweiligen Pixel definieren dessen Position.

    Zwei Ansichten derselben Szene, die aus leicht unterschiedlichen Blickwinkeln betrachtet werden, werden durch stereoskopisches Sehen ermöglicht. Die Lichtquelle A scheint durch die Lochkamera-Eintrittspunkte B und D auf die Bildanzeigen E und H im nächsten Diagramm.

    Der Abstand BD = BC + CD im beigefügten Diagramm ist der Abstand zwischen den beiden Kameraobjektiven. Beide Dreiecke sehen gleich aus, ACB und BFE

    ACD und DGH

    {\begin{aligned}{\text{Therefore displacement }}d&=EF+GH\\&=BF({\frac {EF}{BF}}+{\frac {GH}{BF}})\\&=BF({\frac {EF}{BF}}+{\frac {GH}{DG}})\\&=BF({\frac {BC+CD}{AC}})\\&=BF{\frac {BD}{AC}}\\&={\frac {k}{z}}{\text{, where}}\\\end{aligned}}

    k = BD BF

    Der Winkelabstand z = AC misst von der Ebene der Kamera zum Motiv.

    Die Verschiebung der y-Achse zwischen den identischen Pixeln in den beiden Fotos ist also unter der Annahme, dass die Kameras waagerecht sind und die Bildebenen auf derselben Ebene flach sind. d={\frac {k}{z}}

    Dabei ist k das Produkt aus den Brennweiten beider Kameras und dem Abstand zwischen Objektiv und Bild.

    Die Tiefenkomponente in den beiden Bildern ist z_{1} und z_{2} , gegeben durch,

    z_{2}(x,y)=\min \left\{v:v=z_{1}(x,y-{\frac {k}{z_{1}(x,y)}})\right\}z_{1}(x,y)=\min \left\{v:v=z_{2}(x,y+{\frac {k}{z_{2}(x,y)}})\right\}

    Diese Formeln berücksichtigen die Okklusion von Voxeln in einem Bild durch Voxel im zweiten Bild, die näher an der Oberfläche des Objekts liegen.

    Wenn die Ebenen zweier Bilder nicht parallel zueinander sind, ist eine Bildentzerrung erforderlich, um sie parallel zu machen. Eine lineare Transformation, die dies erreichen könnte, ist.

    Jedes Bild muss möglicherweise korrigiert werden, damit es aussieht, als wäre es mit einer Lochkamera aufgenommen und auf eine ebene Oberfläche projiziert worden.

    Die Ähnlichkeit zwischen Farbtönen kann anhand ihrer Glätte quantifiziert werden. Es ist wahrscheinlicher, dass Pixel mit ähnlichen Farben zu einem einzelnen Objekt gehören und nicht zu mehreren Objekten, da ein bestimmtes Objekt nur eine kleine Anzahl von Farben hat.

    Unter Verwendung der Informationstheorie und der Prämisse, dass die Farbe eines Voxels die Farbe benachbarter Voxel entsprechend der Normalverteilung auf den Abstand zwischen Punkten beeinflusst, wertet die obige Methode die Glätte aus. Das Modell geht von Annäherungen an die Welt aus.

    Die Autokorrelation ist eine weitere Technik, bei der davon ausgegangen wird, dass die Daten glatt sind.

    Glätte ist keine inhärente Qualität eines Bildes, sondern ein Merkmal der Welt selbst. Ein Bild, das aus zufälligen Punkten besteht, wäre nicht glatt, und es wäre sinnlos, Schlussfolgerungen aus ihrer Nähe zu ziehen.

    Glätte sollte, wie jede andere Eigenschaft der Welt, im Konzept erlernt werden. Es scheint, dass das menschliche Sehsystem auf diese Weise funktioniert.

    Wir nennen das normal oder das

    P(x,\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}

    Die Wahrscheinlichkeit P ist proportional zur Menge der Informationen, die durch die Länge L der Nachricht gesendet werden. P(x)=2^{{-L(x)}}

    L(x)=-\log _{2}{P(x)}

    Also

    L(x,\mu ,\sigma )=\log _{2}(\sigma {\sqrt {2\pi }})+{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\log _{2}e

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1