Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision
Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision
Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision
eBook129 Seiten1 Stunde

Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist die Posenschätzung eines artikulierten Körpers?


Im Bereich der Computer-Vision die Untersuchung von Techniken und Systemen, die die Pose eines artikulierten Körpers, der aus Gelenken besteht, wiederherstellen und starren Teilen mithilfe bildbasierter Beobachtungen wird als Schätzung der artikulierten Körperhaltung bezeichnet. Aufgrund der Komplexität der Modelle, die die Beobachtung mit der Position in Beziehung setzen, und aufgrund der Vielzahl von Szenarien, in denen es nützlich wäre, handelt es sich um eine der langlebigsten Herausforderungen im Bereich Computer Vision.


Wie Sie werden davon profitieren


(I) Einblicke und Validierungen zu den folgenden Themen:


Kapitel 1: Schätzung der artikulierten Körperhaltung


Kapitel 2: Bildsegmentierung


Kapitel 3: Gleichzeitige Lokalisierung und Kartierung


Kapitel 4: Gestenerkennung


Kapitel 5: Videoverfolgung


Kapitel 6: Grundlegende Matrix (Computer Vision)


Kapitel 7: Struktur aus Bewegung


Kapitel 8: Bag-of-Words-Modell in Computer Vision


Kapitel 9: Punkt- Set-Registrierung


Kapitel 10: Michael J. Black


(II) Beantwortung der häufigsten öffentlichen Fragen zur Schätzung der artikulierten Körperhaltung.


(III) Beispiele aus der Praxis für den Einsatz der artikulierten Körperhaltungsschätzung in vielen Bereichen.


Für wen dieses Buch gedacht ist


Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die über das Grundwissen oder die Informationen für irgendeine Art der Schätzung der artikulierten Körperhaltung hinausgehen möchten.


 


 

SpracheDeutsch
Erscheinungsdatum30. Apr. 2024
Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision

Ähnlich wie Schätzung der artikulierten Körperhaltung

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Schätzung der artikulierten Körperhaltung

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Schätzung der artikulierten Körperhaltung - Fouad Sabry

    Kapitel 1: Schätzung der artikulierten Körperhaltung

    Das Gebiet des maschinellen Sehens, das als articulated body pose estimation bekannt ist, konzentriert sich auf Techniken und Systeme, die die Position eines sich bewegenden Objekts aus einer Reihe von Bildern seiner Gelenke und starren Teile bestimmen können. Die Schwierigkeit der Modelle, die Beobachtung mit Haltung in Beziehung setzen, sowie das breite Anwendungsspektrum haben dies zu einer dauerhaften Herausforderung für Computer Vision gemacht.

    Roboter müssen in der Lage sein, die Anwesenheit von Menschen in ihrer unmittelbaren Umgebung zu erkennen und zu verstehen. Die interaktive Maschine sollte den realen Kontext des Szenarios verstehen, wenn ein Mensch Gesten einsetzt, um auf ein bestimmtes Objekt zu zeigen. Aufgrund ihrer Bedeutung und Schwierigkeit wurden in den letzten zwei Jahrzehnten mehrere Methoden entwickelt und implementiert, um das Problem der Posenschätzung in der Computer Vision anzugehen. Das Trainieren komplizierter Modelle mit enormen Datensätzen ist ein gängiger Ansatz.

    Aufgrund der 244 Freiheitsgrade und 230 Gelenke des menschlichen Körpers ist die Posenschätzung ein schwieriges Problem in der aktuellen Studie. Der menschliche Körper besteht aus 10 Hauptteilen und 20 Freiheitsgraden, jedoch sind nicht alle Bewegungen zwischen den Gelenken sichtbar. Es gibt viele Variationen im Aussehen, die Algorithmen berücksichtigen müssen, einschließlich Abweichungen bei Kleidung, Körperform, Größe und Haarschnitten. Darüber hinaus können Selbstartikulationsverschlüsse, wie z. B. eine Person, die ihr Gesicht mit der Hand bedeckt, oder äußere Okklusionen die Ergebnisse unklar machen. Schließlich berechnen die meisten Algorithmen die Pose aus den monokularen (zweidimensionalen) Bildern der Standardkamera. Inkonsistente Kamera- und Beleuchtungsbedingungen können zu dem Problem beitragen. Zusätzliche Leistungsanforderungen erhöhen die Komplexität nur noch. Diese Bilder haben viel Raum für Interpretationsfehler, da ihnen die Tiefeninformationen einer realen Körperhaltung fehlen. Neuere Bestrebungen in diese Richtung nutzen die Farb- und Tiefeninformationen, die von RGBD-Kameras erfasst werden.

    In einer modellbasierten Technik, die von den meisten Systemen zur Schätzung der artikulierten Körperpose verwendet wird, wird die höchste/minimale Ähnlichkeit/Differenz zwischen einer Beobachtung (Eingabe) und einem Vorlagenmodell verwendet, um eine geschätzte Pose zu bestimmen. Verschiedene Sensoren, wie z. B. die folgenden, wurden für die Verwendung bei der Durchführung der Beobachtung in Betracht gezogen:

    Bildgebung bei sichtbaren Wellenlängen, Fotos im langwelligen Infrarotspektrum, Flugzeitfotografie und

    Fotos, die mit einem Laser-Entfernungsmesser aufgenommen wurden.

    Das Modell nutzt direkt die Zwischenrepräsentationen, die von diesen Sensoren erzeugt werden. Dies sind einige der Darstellungen:

    Bilddarstellung, Rekonstruktion anhand von Voxeln (Volumenelementen), Dreidimensional mit insgesamt Gaußschen Kernen

    Dreidimensionale Oberflächennetze.

    Das menschliche Skelett ist der Ort, an dem das Konzept eines teilebasierten Modells zum ersten Mal auftauchte. Wenn ein Objekt die Fähigkeit hat, sich zu artikulieren, kann es in Einzelteile zerlegt werden, die in eine Vielzahl von Konfigurationen umgestaltet werden können. Der Maßstab und die Ausrichtung des primären Objekts werden mit den Maßstäben und Ausrichtungen der Teile verknüpft. Die Federn dienen dazu, die vielen Komponenten des Modells miteinander zu verbinden, so dass es mathematisch beschrieben werden kann. So genannt, weil es einer Feder ähnelt, hat dieses Modell andere Namen. Die Kompression und Ausdehnung der Federn ist für die relative Nähe der verschiedenen Komponenten verantwortlich. Die Ausrichtung der Federn ist durch die Geometrie begrenzt. Beine haben zum Beispiel keine Arme, die sich im Kreis drehen können. Daher können Bauteile nicht auf diese Weise ausgerichtet werden. Die Anzahl der brauchbaren Kombinationen wird dadurch reduziert.

    Im Federmodell stellen Knoten (V) die Komponenten dar, während Kanten (E) die Federn darstellen, die sie verbinden.

    Jede Position im Bild kann durch die x und y Koordinaten der Pixelposition erreicht werden.

    Zeigen wir {\displaystyle \mathbf {p} _{i}(x,\,y)} auf {\displaystyle \mathbf {i} ^{th}} den Ort.

    Dann können die Kosten, die mit dem Verbinden der Feder zwischen {\displaystyle \mathbf {i} ^{th}} und dem {\displaystyle \mathbf {j} ^{th}} Punkt verbunden sind, durch angegeben werden {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .

    Daher sind die Gesamtkosten, die mit der Platzierung von l Komponenten an Lagerplätzen  verbunden sind {\displaystyle \mathbf {P} _{l}} , gegeben durch

    {\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}

    Die oben genannte Gleichung ist eine Vereinfachung des Federmodells, das üblicherweise zur Beschreibung der Körperhaltung verwendet wird. Die Minimierung von Kosten oder Energiefunktionen wird verwendet, um die Pose aus Fotos zu schätzen. Es gibt zwei Terme in dieser Energiefunktion. Bei der ersten wird berücksichtigt, wie gut die einzelnen Teile mit den Bilddaten übereinstimmen, während bei der zweiten berücksichtigt wird, wie gut die ausgerichteten (verformten) Teile übereinstimmen, so dass Artikulation und Objekterkennung berücksichtigt werden.

    Eine hierarchische Kette wird verwendet, um das kinematische Skelett aufzubauen.

    Jedes Starrkörpersegment hat sein lokales Koordinatensystem, das über eine 4×4-Transformationsmatrix in das Weltkoordinatensystem transformiert werden kann {\displaystyle T_{l}} . {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}

    wobei {\displaystyle R_{l}} bezeichnet die lokale Transformation vom Körpersegment zum S_{l} übergeordneten {\displaystyle \operatorname {par} (S_{l})} Segment.

    Es gibt drei Freiheitsgrade (DoF) der Bewegung an jedem menschlichen Gelenk.

    Mit einer Transformationsmatrix T_l kann die T-Pose-Gelenkposition in das Koordinatensystem der Welt übersetzt werden.

    In zahlreichen Arbeiten wird die 3D-Gelenkrotation aufgrund {\displaystyle [x,y,z,w]} ihrer Kontinuität, die eine gradientenbasierte Optimierung in der Parameterschätzung erleichtern kann, als normalisiertes Quaternion ausgedrückt.

    Um die Posen von artikulierten Körpern genau einschätzen zu können, ist Deep Learning seit etwa 2016 zur Standardtechnik geworden. Das Aussehen der Gelenke und die Beziehungen zwischen den Gelenken des Körpers werden durch umfangreiche Trainingssätze erlernt, im Gegensatz zur Entwicklung eines expliziten Modells für die oben genannten Teile. Die Extraktion von 2D-Gelenkpositionen (Keypoints), 3D-Gelenkpositionen oder 3D-Körperformen aus einem oder mehreren Fotos ist in der Regel der Hauptschwerpunkt von Modellen.

    Erste Deep-Learning-Modelle, die entwickelt wurden, befassten sich in erster Linie damit, die 2D-Positionen menschlicher Gelenke aus einem gegebenen Bild zu bestimmen. Um Gelenke zu erkennen, speisen diese Modelle ein Eingabebild in ein Convolutional Neural Network ein, das eine Reihe von Heatmaps (eine für jedes Gelenk) mit hohen Werten in diesen Bereichen erstellt.

    Mit der Verbreitung von Datensätzen, die Anmerkungen menschlicher Posen aus verschiedenen Blickwinkeln enthalten, haben Wissenschaftler neben der oben genannten Forschung versucht, die 3D-Form einer Person oder eines Tieres aus einer Sammlung von 2D-Fotos zu rekonstruieren. Das Hauptaugenmerk liegt auf der Schätzung der korrekten Pose des SMPL-Modells (Skinned Multi-Person Linear). Für jedes Tier im Bild werden oft Schlüsselpunkte und eine Silhouette erkannt; Nachdem sie gefunden wurden, werden die Parameter eines 3D-Formmodells in der Regel an ihre Positionen angepasst.

    Kommentierte Fotos sind für die oben genannten Algorithmen unerlässlich, auch wenn ihre Erstellung mühsam sein kann. Um dieses Problem zu lösen, haben Forscher auf dem Gebiet des maschinellen Sehens neue Algorithmen entwickelt, die entweder Schlüsselpunkte in Filmen ohne Anmerkungen erkennen oder 3D-Schlüsselpunkte lernen können, wenn nur kommentierte 2D-Bilder aus einer einzigen Ansicht vorliegen.

    In nicht allzu

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1