Schätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision
Von Fouad Sabry
()
Über dieses E-Book
Was ist die Posenschätzung eines artikulierten Körpers?
Im Bereich der Computer-Vision die Untersuchung von Techniken und Systemen, die die Pose eines artikulierten Körpers, der aus Gelenken besteht, wiederherstellen und starren Teilen mithilfe bildbasierter Beobachtungen wird als Schätzung der artikulierten Körperhaltung bezeichnet. Aufgrund der Komplexität der Modelle, die die Beobachtung mit der Position in Beziehung setzen, und aufgrund der Vielzahl von Szenarien, in denen es nützlich wäre, handelt es sich um eine der langlebigsten Herausforderungen im Bereich Computer Vision.
Wie Sie werden davon profitieren
(I) Einblicke und Validierungen zu den folgenden Themen:
Kapitel 1: Schätzung der artikulierten Körperhaltung
Kapitel 2: Bildsegmentierung
Kapitel 3: Gleichzeitige Lokalisierung und Kartierung
Kapitel 4: Gestenerkennung
Kapitel 5: Videoverfolgung
Kapitel 6: Grundlegende Matrix (Computer Vision)
Kapitel 7: Struktur aus Bewegung
Kapitel 8: Bag-of-Words-Modell in Computer Vision
Kapitel 9: Punkt- Set-Registrierung
Kapitel 10: Michael J. Black
(II) Beantwortung der häufigsten öffentlichen Fragen zur Schätzung der artikulierten Körperhaltung.
(III) Beispiele aus der Praxis für den Einsatz der artikulierten Körperhaltungsschätzung in vielen Bereichen.
Für wen dieses Buch gedacht ist
Profis, Studenten und Doktoranden, Enthusiasten, Hobbyisten und diejenigen, die über das Grundwissen oder die Informationen für irgendeine Art der Schätzung der artikulierten Körperhaltung hinausgehen möchten.
Ähnlich wie Schätzung der artikulierten Körperhaltung
Titel in dieser Serie (100)
Gamma-Korrektur: Verbesserung der visuellen Klarheit in der Computer Vision: Die Gammakorrekturtechnik Bewertung: 0 von 5 Sternen0 BewertungenTonzuordnung: Tone Mapping: Erhellende Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenFarberscheinungsmodell: Wahrnehmung und Darstellung in Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenHomographie: Homographie: Transformationen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer Vision: Erkundung der Tiefen des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenLärmminderung: Verbesserung der Klarheit, fortschrittliche Techniken zur Rauschunterdrückung in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenInpainting: Überbrückung von Lücken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGemeinsame Fotoexpertengruppe: Erschließen Sie das Potenzial visueller Daten mit dem JPEG-Standard Bewertung: 0 von 5 Sternen0 BewertungenUnterwasser-Computervision: Erkundung der Tiefen der Computer Vision unter den Wellen Bewertung: 0 von 5 Sternen0 BewertungenHough-Transformation: Enthüllung der Magie der Hough-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRetinex: Enthüllen Sie die Geheimnisse des computergestützten Sehens mit Retinex Bewertung: 0 von 5 Sternen0 BewertungenAnisotrope Diffusion: Verbesserung der Bildanalyse durch anisotrope Diffusion Bewertung: 0 von 5 Sternen0 BewertungenAffine Transformation: Visuelle Perspektiven freischalten: Erforschung der affinen Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenTrifokaler Tensor: Erforschung von Tiefe, Bewegung und Struktur in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildkompression: Effiziente Techniken zur visuellen Datenoptimierung Bewertung: 0 von 5 Sternen0 BewertungenHistogrammausgleich: Verbesserung des Bildkontrasts für eine verbesserte visuelle Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenHadamard-Transformation: Enthüllung der Leistungsfähigkeit der Hadamard-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAktive Kontur: Weiterentwicklung der Computer Vision mit aktiven Konturtechniken Bewertung: 0 von 5 Sternen0 BewertungenAdaptiver Filter: Verbesserung der Computer Vision durch adaptive Filterung Bewertung: 0 von 5 Sternen0 BewertungenZufallsstichprobenkonsens: Robuste Schätzung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildhistogramm: Visuelle Einblicke enthüllen und die Tiefen von Bildhistogrammen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenFilterbank: Einblicke in die Filterbanktechniken von Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenHarris Eckendetektor: Enthüllung der Magie der Bildmerkmalserkennung Bewertung: 0 von 5 Sternen0 BewertungenFarbmanagementsystem: Optimierung der visuellen Wahrnehmung in digitalen Umgebungen Bewertung: 0 von 5 Sternen0 BewertungenModell des menschlichen visuellen Systems: Wahrnehmung und Verarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenFarbmodell: Das Spektrum des Computer Vision verstehen: Farbmodelle erkunden Bewertung: 0 von 5 Sternen0 BewertungenFarbzuordnung: Erforschung der visuellen Wahrnehmung und Analyse in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRadon-Transformation: Aufdecken verborgener Muster in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenBlob-Erkennung: Aufdecken von Mustern in visuellen Daten Bewertung: 0 von 5 Sternen0 Bewertungen
Ähnliche E-Books
Aktives Erscheinungsmodell: Erschließung der Leistungsfähigkeit aktiver Darstellungsmodelle in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer Vision: Erkundung der Tiefen des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenOptischer Fluss: Erforschung dynamischer visueller Muster in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSynthese anzeigen: Erkundung von Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenVisuelles Sensornetzwerk: Erkundung der Leistungsfähigkeit visueller Sensornetzwerke in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenKollisionserkennung: Visuelle Schnittpunkte in der Bildverarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenLernen geometrischer Merkmale: Visuelle Einblicke durch das Lernen geometrischer Merkmale erschließen Bewertung: 0 von 5 Sternen0 BewertungenObjekterkennung: Fortschritte, Anwendungen und Algorithmen Bewertung: 0 von 5 Sternen0 BewertungenDreidimensionale Multi-View-Rekonstruktion: Fortgeschrittene Techniken zur räumlichen Wahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenOptische Braille-Erkennung: Ermöglichung der Barrierefreiheit durch visuelle Intelligenz Bewertung: 0 von 5 Sternen0 BewertungenEpipolare Geometrie: Erschließung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildbasierte Modellierung und Rendering: Erforschung des visuellen Realismus: Techniken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenPyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse Bewertung: 0 von 5 Sternen0 BewertungenDokumentmosaikierung: Visuelle Einblicke durch Dokumentmosaikierung erschließen Bewertung: 0 von 5 Sternen0 BewertungenBildsegmentierung: Erkenntnisse durch Pixelpräzision erschließen Bewertung: 0 von 5 Sternen0 BewertungenGeschwindigkeitsmomente: Die Dynamik erfassen: Einblicke in Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenEigenface: Erkunden Sie die Tiefen der visuellen Erkennung mit Eigenface Bewertung: 0 von 5 Sternen0 BewertungenGesichtserkennungssystem: Erschließen Sie die Kraft der visuellen Intelligenz Bewertung: 0 von 5 Sternen0 BewertungenBewegungsfeld: Erkundung der Dynamik von Computer Vision: Bewegungsfeld enthüllt Bewertung: 0 von 5 Sternen0 BewertungenRaytracing-Grafiken: Erforschung des fotorealistischen Renderings in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenDreidimensionale Computergrafik: Erkundung der Schnittstelle zwischen Vision und virtuellen Welten Bewertung: 0 von 5 Sternen0 BewertungenKontextuelle Bildklassifizierung: Visuelle Daten für eine effektive Klassifizierung verstehen Bewertung: 0 von 5 Sternen0 BewertungenSkalieren Sie den Raum: Erforschung von Dimensionen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSkalierungsinvariante Feature-Transformation: Enthüllung der Leistungsfähigkeit der skaleninvarianten Merkmalstransformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenUnterwasser-Computervision: Erkundung der Tiefen der Computer Vision unter den Wellen Bewertung: 0 von 5 Sternen0 BewertungenInhaltsbasierter Bildabruf: Visuelle Datenbanken freischalten Bewertung: 0 von 5 Sternen0 Bewertungen
Künstliche Intelligenz (KI) & Semantik für Sie
Aufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Epische Reise des Erfolgs - 'Steigern Sie Ihren Reichtum': Mit Screenshots aus dem echten Leben - Erreichen Sie finanzielle Höhen Bewertung: 0 von 5 Sternen0 BewertungenChatGPT – Für Einsteiger: Schreibprofi mit KI, Zeit und Geld sparen ohne peinliche Fehler Bewertung: 0 von 5 Sternen0 BewertungenMeistern von ChatGPT: Entriegeln Sie die Kraft der KI für verbesserte Kommunikation und Beziehungen: German Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5 Bewertung: 0 von 5 Sternen0 BewertungenDie Zukunft der Arbeit: Digitalisierung, Automatisierung, KI Bewertung: 0 von 5 Sternen0 BewertungenDie KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen Bewertung: 1 von 5 Sternen1/5Menschlicher Geist und Künstliche Intelligenz: Die Entwicklung des Humanen inmitten einer digitalen Welt Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Landingpages: Wie du deine Konkurrenz in den digitalen Staub schicken Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Medien-Gestaltung leicht gemacht: Von der Idee zum viralen Hit Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz: Die vierte industrielle Revolution Bewertung: 0 von 5 Sternen0 BewertungenEinstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte Bewertung: 0 von 5 Sternen0 BewertungenWissen statt Glauben!: Das Weltbild des neuen Humanismus Bewertung: 0 von 5 Sternen0 BewertungenRoboter im Alltag: Maschinen (beinahe) wie Menschen Bewertung: 0 von 5 Sternen0 BewertungenKI-Innovationen: Wie die Technologie die Grenzen verschiebt Künstliche Intelligenz verstehen und nutzen: Ein AI-Buch Bewertung: 0 von 5 Sternen0 BewertungenDigitalotopia: Sind wir bereit für die (R)Evolution der Wirklichkeit? Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz in Sozialen Medien Bewertung: 0 von 5 Sternen0 Bewertungen
Rezensionen für Schätzung der artikulierten Körperhaltung
0 Bewertungen0 Rezensionen
Buchvorschau
Schätzung der artikulierten Körperhaltung - Fouad Sabry
Kapitel 1: Schätzung der artikulierten Körperhaltung
Das Gebiet des maschinellen Sehens, das als articulated body pose estimation
bekannt ist, konzentriert sich auf Techniken und Systeme, die die Position eines sich bewegenden Objekts aus einer Reihe von Bildern seiner Gelenke und starren Teile bestimmen können. Die Schwierigkeit der Modelle, die Beobachtung mit Haltung in Beziehung setzen, sowie das breite Anwendungsspektrum haben dies zu einer dauerhaften Herausforderung für Computer Vision gemacht.
Roboter müssen in der Lage sein, die Anwesenheit von Menschen in ihrer unmittelbaren Umgebung zu erkennen und zu verstehen. Die interaktive Maschine sollte den realen Kontext des Szenarios verstehen, wenn ein Mensch Gesten einsetzt, um auf ein bestimmtes Objekt zu zeigen. Aufgrund ihrer Bedeutung und Schwierigkeit wurden in den letzten zwei Jahrzehnten mehrere Methoden entwickelt und implementiert, um das Problem der Posenschätzung in der Computer Vision anzugehen. Das Trainieren komplizierter Modelle mit enormen Datensätzen ist ein gängiger Ansatz.
Aufgrund der 244 Freiheitsgrade und 230 Gelenke des menschlichen Körpers ist die Posenschätzung ein schwieriges Problem in der aktuellen Studie. Der menschliche Körper besteht aus 10 Hauptteilen und 20 Freiheitsgraden, jedoch sind nicht alle Bewegungen zwischen den Gelenken sichtbar. Es gibt viele Variationen im Aussehen, die Algorithmen berücksichtigen müssen, einschließlich Abweichungen bei Kleidung, Körperform, Größe und Haarschnitten. Darüber hinaus können Selbstartikulationsverschlüsse, wie z. B. eine Person, die ihr Gesicht mit der Hand bedeckt, oder äußere Okklusionen die Ergebnisse unklar machen. Schließlich berechnen die meisten Algorithmen die Pose aus den monokularen (zweidimensionalen) Bildern der Standardkamera. Inkonsistente Kamera- und Beleuchtungsbedingungen können zu dem Problem beitragen. Zusätzliche Leistungsanforderungen erhöhen die Komplexität nur noch. Diese Bilder haben viel Raum für Interpretationsfehler, da ihnen die Tiefeninformationen einer realen Körperhaltung fehlen. Neuere Bestrebungen in diese Richtung nutzen die Farb- und Tiefeninformationen, die von RGBD-Kameras erfasst werden.
In einer modellbasierten Technik, die von den meisten Systemen zur Schätzung der artikulierten Körperpose verwendet wird, wird die höchste/minimale Ähnlichkeit/Differenz zwischen einer Beobachtung (Eingabe) und einem Vorlagenmodell verwendet, um eine geschätzte Pose zu bestimmen. Verschiedene Sensoren, wie z. B. die folgenden, wurden für die Verwendung bei der Durchführung der Beobachtung in Betracht gezogen:
Bildgebung bei sichtbaren Wellenlängen, Fotos im langwelligen Infrarotspektrum, Flugzeitfotografie und
Fotos, die mit einem Laser-Entfernungsmesser aufgenommen wurden.
Das Modell nutzt direkt die Zwischenrepräsentationen, die von diesen Sensoren erzeugt werden. Dies sind einige der Darstellungen:
Bilddarstellung, Rekonstruktion anhand von Voxeln (Volumenelementen), Dreidimensional mit insgesamt Gaußschen Kernen
Dreidimensionale Oberflächennetze.
Das menschliche Skelett ist der Ort, an dem das Konzept eines teilebasierten Modells
zum ersten Mal auftauchte. Wenn ein Objekt die Fähigkeit hat, sich zu artikulieren, kann es in Einzelteile zerlegt werden, die in eine Vielzahl von Konfigurationen umgestaltet werden können. Der Maßstab und die Ausrichtung des primären Objekts werden mit den Maßstäben und Ausrichtungen der Teile verknüpft. Die Federn dienen dazu, die vielen Komponenten des Modells miteinander zu verbinden, so dass es mathematisch beschrieben werden kann. So genannt, weil es einer Feder ähnelt, hat dieses Modell andere Namen. Die Kompression und Ausdehnung der Federn ist für die relative Nähe der verschiedenen Komponenten verantwortlich. Die Ausrichtung der Federn ist durch die Geometrie begrenzt. Beine haben zum Beispiel keine Arme, die sich im Kreis drehen können. Daher können Bauteile nicht auf diese Weise ausgerichtet werden. Die Anzahl der brauchbaren Kombinationen wird dadurch reduziert.
Im Federmodell stellen Knoten (V) die Komponenten dar, während Kanten (E) die Federn darstellen, die sie verbinden.
Jede Position im Bild kann durch die x und y Koordinaten der Pixelposition erreicht werden.
Zeigen wir {\displaystyle \mathbf {p} _{i}(x,\,y)} auf {\displaystyle \mathbf {i} ^{th}} den Ort.
Dann können die Kosten, die mit dem Verbinden der Feder zwischen {\displaystyle \mathbf {i} ^{th}} und dem {\displaystyle \mathbf {j} ^{th}} Punkt verbunden sind, durch angegeben werden {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} .
Daher sind die Gesamtkosten, die mit der Platzierung von l Komponenten an Lagerplätzen verbunden sind {\displaystyle \mathbf {P} _{l}} , gegeben durch
{\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}Die oben genannte Gleichung ist eine Vereinfachung des Federmodells, das üblicherweise zur Beschreibung der Körperhaltung verwendet wird. Die Minimierung von Kosten oder Energiefunktionen wird verwendet, um die Pose aus Fotos zu schätzen. Es gibt zwei Terme in dieser Energiefunktion. Bei der ersten wird berücksichtigt, wie gut die einzelnen Teile mit den Bilddaten übereinstimmen, während bei der zweiten berücksichtigt wird, wie gut die ausgerichteten (verformten) Teile übereinstimmen, so dass Artikulation und Objekterkennung berücksichtigt werden.
Eine hierarchische Kette wird verwendet, um das kinematische Skelett aufzubauen.
Jedes Starrkörpersegment hat sein lokales Koordinatensystem, das über eine 4×4-Transformationsmatrix in das Weltkoordinatensystem transformiert werden kann {\displaystyle T_{l}} . {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}
wobei {\displaystyle R_{l}} bezeichnet die lokale Transformation vom Körpersegment zum S_{l} übergeordneten {\displaystyle \operatorname {par} (S_{l})} Segment.
Es gibt drei Freiheitsgrade (DoF) der Bewegung an jedem menschlichen Gelenk.
Mit einer Transformationsmatrix T_l kann die T-Pose-Gelenkposition in das Koordinatensystem der Welt übersetzt werden.
In zahlreichen Arbeiten wird die 3D-Gelenkrotation aufgrund {\displaystyle [x,y,z,w]} ihrer Kontinuität, die eine gradientenbasierte Optimierung in der Parameterschätzung erleichtern kann, als normalisiertes Quaternion ausgedrückt.
Um die Posen von artikulierten Körpern genau einschätzen zu können, ist Deep Learning seit etwa 2016 zur Standardtechnik geworden. Das Aussehen der Gelenke und die Beziehungen zwischen den Gelenken des Körpers werden durch umfangreiche Trainingssätze erlernt, im Gegensatz zur Entwicklung eines expliziten Modells für die oben genannten Teile. Die Extraktion von 2D-Gelenkpositionen (Keypoints), 3D-Gelenkpositionen oder 3D-Körperformen aus einem oder mehreren Fotos ist in der Regel der Hauptschwerpunkt von Modellen.
Erste Deep-Learning-Modelle, die entwickelt wurden, befassten sich in erster Linie damit, die 2D-Positionen menschlicher Gelenke aus einem gegebenen Bild zu bestimmen. Um Gelenke zu erkennen, speisen diese Modelle ein Eingabebild in ein Convolutional Neural Network ein, das eine Reihe von Heatmaps (eine für jedes Gelenk) mit hohen Werten in diesen Bereichen erstellt.
Mit der Verbreitung von Datensätzen, die Anmerkungen menschlicher Posen aus verschiedenen Blickwinkeln enthalten, haben Wissenschaftler neben der oben genannten Forschung versucht, die 3D-Form einer Person oder eines Tieres aus einer Sammlung von 2D-Fotos zu rekonstruieren. Das Hauptaugenmerk liegt auf der Schätzung der korrekten Pose des SMPL-Modells (Skinned Multi-Person Linear). Für jedes Tier im Bild werden oft Schlüsselpunkte und eine Silhouette erkannt; Nachdem sie gefunden wurden, werden die Parameter eines 3D-Formmodells in der Regel an ihre Positionen angepasst.
Kommentierte Fotos sind für die oben genannten Algorithmen unerlässlich, auch wenn ihre Erstellung mühsam sein kann. Um dieses Problem zu lösen, haben Forscher auf dem Gebiet des maschinellen Sehens neue Algorithmen entwickelt, die entweder Schlüsselpunkte in Filmen ohne Anmerkungen erkennen oder 3D-Schlüsselpunkte lernen können, wenn nur kommentierte 2D-Bilder aus einer einzigen Ansicht vorliegen.
In nicht allzu