Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision
Von Fouad Sabry
()
Über dieses E-Book
Was ist Bewegungsschätzung
In der Computer Vision und Bildverarbeitung ist Bewegungsschätzung der Prozess der Bestimmung von Bewegungsvektoren, die die Transformation von einem 2D-Bild in ein anderes beschreiben; normalerweise aus benachbarten Bildern in einer Videosequenz. Es handelt sich um ein falsch gestelltes Problem, da die Bewegung in drei Dimensionen (3D) stattfindet, die Bilder jedoch eine Projektion der 3D-Szene auf eine 2D-Ebene sind. Die Bewegungsvektoren können sich auf das gesamte Bild oder auf bestimmte Teile beziehen, beispielsweise rechteckige Blöcke, beliebig geformte Flecken oder sogar pro Pixel. Die Bewegungsvektoren können durch ein Translationsmodell oder viele andere Modelle dargestellt werden, die die Bewegung einer echten Videokamera annähern können, z. B. Rotation und Translation in allen drei Dimensionen und Zoom.
Wie Sie wollen Nutzen
(I) Erkenntnisse und Validierungen zu den folgenden Themen:
Kapitel 1: Bewegungsschätzung
Kapitel 2: Bewegungskompensation
Kapitel 3: Block-matching_algorithm
Kapitel 4: H.261
Kapitel 5: H.262/MPEG-2_Part_2
Kapitel 6: Advanced_Video_Coding
Kapitel 7: Globale_Bewegungskompensation
Kapitel 8: Blockanpassung_und_3D-Filterung
Kapitel 9: Video_komprimierte_Bildtypen
Kapitel 10: Video_Superauflösung
(II) Beantwortung der häufigsten öffentlichen Fragen zur Bewegungsschätzung.
(III) Beispiele aus der Praxis für die Verwendung der Bewegungsschätzung in vielen Bereichen.
Für wen sich dieses Buch eignet
Profis, Studenten und Doktoranden, Enthusiasten, Bastler und diejenigen, die über das Grundwissen oder die Informationen für jede Art von Bewegungsschätzung hinausgehen möchten.
Mehr von Fouad Sabry lesen
Ähnlich wie Bewegungsschätzung
Titel in dieser Serie (100)
Gemeinsame Fotoexpertengruppe: Erschließen Sie das Potenzial visueller Daten mit dem JPEG-Standard Bewertung: 0 von 5 Sternen0 BewertungenUnterwasser-Computervision: Erkundung der Tiefen der Computer Vision unter den Wellen Bewertung: 0 von 5 Sternen0 BewertungenFarberscheinungsmodell: Wahrnehmung und Darstellung in Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenComputer Vision: Erkundung der Tiefen des Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenHough-Transformation: Enthüllung der Magie der Hough-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenHadamard-Transformation: Enthüllung der Leistungsfähigkeit der Hadamard-Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildhistogramm: Visuelle Einblicke enthüllen und die Tiefen von Bildhistogrammen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenBildkompression: Effiziente Techniken zur visuellen Datenoptimierung Bewertung: 0 von 5 Sternen0 BewertungenTonzuordnung: Tone Mapping: Erhellende Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAnisotrope Diffusion: Verbesserung der Bildanalyse durch anisotrope Diffusion Bewertung: 0 von 5 Sternen0 BewertungenLärmminderung: Verbesserung der Klarheit, fortschrittliche Techniken zur Rauschunterdrückung in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenAdaptiver Filter: Verbesserung der Computer Vision durch adaptive Filterung Bewertung: 0 von 5 Sternen0 BewertungenRadon-Transformation: Aufdecken verborgener Muster in visuellen Daten Bewertung: 0 von 5 Sternen0 BewertungenOrientiertes Gradienten-Histogramm: Enthüllung des visuellen Bereichs: Erkundung des Histogramms mit orientierten Farbverläufen in der Bildverarbeitung Bewertung: 0 von 5 Sternen0 BewertungenHomographie: Homographie: Transformationen in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenKantenerkennung: Grenzen in der Computer Vision erkunden Bewertung: 0 von 5 Sternen0 BewertungenFarbanpassungsfunktion: Spektrale Empfindlichkeit in Computer Vision verstehen Bewertung: 0 von 5 Sternen0 BewertungenHistogrammausgleich: Verbesserung des Bildkontrasts für eine verbesserte visuelle Wahrnehmung Bewertung: 0 von 5 Sternen0 BewertungenHarris Eckendetektor: Enthüllung der Magie der Bildmerkmalserkennung Bewertung: 0 von 5 Sternen0 BewertungenAktive Kontur: Weiterentwicklung der Computer Vision mit aktiven Konturtechniken Bewertung: 0 von 5 Sternen0 BewertungenRetinex: Enthüllen Sie die Geheimnisse des computergestützten Sehens mit Retinex Bewertung: 0 von 5 Sternen0 BewertungenFarbmanagementsystem: Optimierung der visuellen Wahrnehmung in digitalen Umgebungen Bewertung: 0 von 5 Sternen0 BewertungenInpainting: Überbrückung von Lücken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenAffine Transformation: Visuelle Perspektiven freischalten: Erforschung der affinen Transformation in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGamma-Korrektur: Verbesserung der visuellen Klarheit in der Computer Vision: Die Gammakorrekturtechnik Bewertung: 0 von 5 Sternen0 BewertungenModell des menschlichen visuellen Systems: Wahrnehmung und Verarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenFarbmodell: Das Spektrum des Computer Vision verstehen: Farbmodelle erkunden Bewertung: 0 von 5 Sternen0 BewertungenLevel-Set-Methode: Weiterentwicklung der Computer Vision, Erforschung der Level-Set-Methode Bewertung: 0 von 5 Sternen0 BewertungenFilterbank: Einblicke in die Filterbanktechniken von Computer Vision Bewertung: 0 von 5 Sternen0 Bewertungen
Ähnliche E-Books
Optischer Fluss: Erforschung dynamischer visueller Muster in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenVolumen Rendern: Erforschung des Visuellen Realismus in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenRaytracing-Grafiken: Erforschung des fotorealistischen Renderings in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSynthese anzeigen: Erkundung von Perspektiven in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenDokumentmosaikierung: Visuelle Einblicke durch Dokumentmosaikierung erschließen Bewertung: 0 von 5 Sternen0 BewertungenComputer-Stereo-Vision: Erforschung der Tiefenwahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenKontextuelle Bildklassifizierung: Visuelle Daten für eine effektive Klassifizierung verstehen Bewertung: 0 von 5 Sternen0 BewertungenRendern von Computergrafiken: Erforschung des visuellen Realismus: Einblicke in die Computergrafik Bewertung: 0 von 5 Sternen0 BewertungenAktives Erscheinungsmodell: Erschließung der Leistungsfähigkeit aktiver Darstellungsmodelle in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenGlobale Beleuchtung: Vision voranbringen, Einblicke in die globale Beleuchtung Bewertung: 0 von 5 Sternen0 BewertungenPyramiden Bildverarbeitung: Erkundung der Tiefen der visuellen Analyse Bewertung: 0 von 5 Sternen0 BewertungenBildbasierte Modellierung und Rendering: Erforschung des visuellen Realismus: Techniken in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenDreidimensionale Multi-View-Rekonstruktion: Fortgeschrittene Techniken zur räumlichen Wahrnehmung in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenComputer-Vision-Grafikschnitte: Erforschung von Graphschnitten in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBump-Mapping: Bump Mapping: Erforschung der Tiefe der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenBildsegmentierung: Erkenntnisse durch Pixelpräzision erschließen Bewertung: 0 von 5 Sternen0 BewertungenVektorgrafik-Editor: Ermöglichen Sie die visuelle Erstellung mit fortschrittlichen Algorithmen Bewertung: 0 von 5 Sternen0 BewertungenBewegungsfeld: Erkundung der Dynamik von Computer Vision: Bewegungsfeld enthüllt Bewertung: 0 von 5 Sternen0 BewertungenBündelanpassung: Optimieren visueller Daten für eine präzise Rekonstruktion Bewertung: 0 von 5 Sternen0 BewertungenDistanznebel: Erkundung der visuellen Grenze: Einblicke in den Distanznebel der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenVektorgrafiken: Beherrschung von Vektorgrafiken in Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSchatten: Erkundung visueller Bereiche mit Shader: Eine Reise in die Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenSchätzung der artikulierten Körperhaltung: Erschließung menschlicher Bewegung in Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenScan Linien Rendern: Erforschung des visuellen Realismus durch Scan Linien Rendern Techniken Bewertung: 0 von 5 Sternen0 BewertungenRastergrafik-Editor: Visuelle Realitäten transformieren: Rastergrafik-Editoren in Computer Vision beherrschen Bewertung: 0 von 5 Sternen0 BewertungenFarbzuordnung: Erforschung der visuellen Wahrnehmung und Analyse in der Computer Vision Bewertung: 0 von 5 Sternen0 BewertungenModell des menschlichen visuellen Systems: Wahrnehmung und Verarbeitung verstehen Bewertung: 0 von 5 Sternen0 BewertungenLevel-Set-Methode: Weiterentwicklung der Computer Vision, Erforschung der Level-Set-Methode Bewertung: 0 von 5 Sternen0 BewertungenVerfahrensoberfläche: Erforschung der Texturgenerierung und -analyse in Computer Vision Bewertung: 0 von 5 Sternen0 Bewertungen
Künstliche Intelligenz (KI) & Semantik für Sie
Meistern von ChatGPT: Entriegeln Sie die Kraft der KI für verbesserte Kommunikation und Beziehungen: German Bewertung: 0 von 5 Sternen0 BewertungenChatGPT – Für Einsteiger: Schreibprofi mit KI, Zeit und Geld sparen ohne peinliche Fehler Bewertung: 0 von 5 Sternen0 BewertungenAufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen Bewertung: 0 von 5 Sternen0 BewertungenMenschlicher Geist und Künstliche Intelligenz: Die Entwicklung des Humanen inmitten einer digitalen Welt Bewertung: 0 von 5 Sternen0 BewertungenEinstieg ins Machine Learning: Grundlagen, Prinzipien, erste Schritte Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5 Bewertung: 0 von 5 Sternen0 BewertungenDie Zukunft der Arbeit: Digitalisierung, Automatisierung, KI Bewertung: 0 von 5 Sternen0 BewertungenKI-Innovationen: Wie die Technologie die Grenzen verschiebt Künstliche Intelligenz verstehen und nutzen: Ein AI-Buch Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Landingpages: Wie du deine Konkurrenz in den digitalen Staub schicken Bewertung: 0 von 5 Sternen0 BewertungenDie KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen Bewertung: 1 von 5 Sternen1/5Künstliche Intelligenz: Die vierte industrielle Revolution Bewertung: 0 von 5 Sternen0 BewertungenChatGPT: Epische Reise des Erfolgs - 'Steigern Sie Ihren Reichtum': Mit Screenshots aus dem echten Leben - Erreichen Sie finanzielle Höhen Bewertung: 0 von 5 Sternen0 BewertungenRoboter im Alltag: Maschinen (beinahe) wie Menschen Bewertung: 0 von 5 Sternen0 BewertungenDigitalotopia: Sind wir bereit für die (R)Evolution der Wirklichkeit? Bewertung: 0 von 5 Sternen0 BewertungenKünstliche Intelligenz in Sozialen Medien Bewertung: 0 von 5 Sternen0 BewertungenChatbotische Medien-Gestaltung leicht gemacht: Von der Idee zum viralen Hit Bewertung: 0 von 5 Sternen0 BewertungenWissen statt Glauben!: Das Weltbild des neuen Humanismus Bewertung: 0 von 5 Sternen0 Bewertungen
Rezensionen für Bewegungsschätzung
0 Bewertungen0 Rezensionen
Buchvorschau
Bewegungsschätzung - Fouad Sabry
Kapitel 1: Bewegungsschätzung
Die Schätzung der Bewegungsmenge zwischen zwei 2D-Bildern, typischerweise aus aufeinanderfolgenden Frames in einer Videosequenz, wird als Bewegungsschätzung bezeichnet. Bewegung findet in drei Dimensionen statt, aber die Bilder sind Projektionen der dreidimensionalen Szene auf eine zweidimensionale Ebene, was dies zu einem schlecht gestellten Problem macht. Die Bewegungsschätzung kann für das gesamte Bild (globale Bewegungsschätzung) oder für kleinere Bereiche oder einzelne Pixel durchgeführt werden. Das Translationsmodell ist nur eines von vielen, die zur Darstellung der Bewegungsvektoren verwendet werden können, die Dinge wie Rotation, Translation in allen drei Dimensionen und Vergrößern und Verkleinern umfassen können.
Bewegungsschätzung und optischer Fluss werden oft synonym verwendet, bedeuten aber dasselbe. Bildregistrierung und Stereokorrespondenz hängen auch auf diese Weise zusammen. In Wirklichkeit beschreibt jeder dieser Ausdrücke eine Methode zum Auffinden übereinstimmender Features in aufeinanderfolgenden Standbildern oder Videoframes. Punkte in zwei Fotos (Rahmen) derselben realen Szene oder desselben Objekts sind typischerweise
derselbe Punkt in Raum und Zeit. Die Matching-Metrik, ein Maß dafür, wie ähnlich zwei Bildpunkte sind, muss definiert werden, bevor die Bewegungsschätzung beginnen kann. Hier gibt es keine allgemeingültige Antwort; Vielmehr hängt die optimale Übereinstimmungsmetrik vom Zweck der geschätzten Bewegung und dem Optimierungsansatz ab, der während der Schätzphase verwendet wird.
Basierend auf der Position desselben oder eines vergleichbaren Makroblocks in einem anderen Bild, dem sogenannten Referenzbild, wird ein Bewegungsvektor erstellt, der den betreffenden Makroblock im Originalbild darstellt.
Gemäß dem H.264/MPEG-4 AVC-Standard ist der Bewegungsvektor definiert als:
Die Koordinaten des dekodierten Bildes werden in Bezug auf die Koordinaten des Referenzbildes über einen zweidimensionalen Vektor versetzt, der als Bewegungsvektor bezeichnet wird und für die Zwischenvorhersage verwendet wird.
Sowohl pixelbasierte (direkte
) als auch merkmalsbasierte (indirekte
) Ansätze können verwendet werden, um Bewegungsvektoren (indirekt
) zu lokalisieren. Zwei Papiere, eines von jeder Seite einer bekannten Kontroverse, wurden geschrieben, um eine Lösung zu finden.
Algorithmus zum Zuordnen von Blöcken
Techniken, die auf Phasenkorrelation und Frequenzbereich basieren
Rekursive Pixel-Algorithmen
Optischer Fluss
Indirekte Techniken verwenden Funktionen wie die Eckenerkennung, um Übereinstimmungen in benachbarten Frames zu finden, typischerweise durch die Anwendung einer statistischen Funktion auf einen kleinen oder großen Bereich. Das Ziel der statistischen Funktion ist es, fehlerhafte Bewegungsübereinstimmungen herauszufiltern.
RANSAC ist ein Beispiel für eine nützliche statistische Funktion.
Man könnte argumentieren, dass die Definition der Matching-Kriterien ein notwendiger Schritt in praktisch jedem Ansatz ist. Der einzige wirkliche Unterschied besteht darin, zuerst jedes Pixel zu vergleichen (wie bei der Quadratur der Differenz) und dann über einen lokalen Bildbereich zusammenzufassen (wie bei merkmalsbasierten Ansätzen) oder umgekehrt (Blockbasisbewegung und filterbasierte Bewegung). Eine neue Methode zum Abgleichen von Kriterien funktioniert, indem zuerst ein lokaler Bildbereich an jeder Pixelposition zusammengefasst wird (unter Verwendung einer Featuretransformation wie der Laplace-Transformation) und dann die beiden Zusammenfassungssätze verglichen werden. Während einige Übereinstimmungskriterien Paare von Datenelementen eliminieren können, die nicht wirklich zusammengehören, während sie eine hohe Übereinstimmungsbewertung aufweisen, können andere Übereinstimmungskriterien dies nicht.
In der Computer Vision und Bildverarbeitung wird die affine Bewegungsschätzung verwendet, um eine grobe Annäherung an die relative Bewegung zweier Bilder oder Bilder zu berechnen. Geht davon aus, dass die Bewegung durch eine lineare Transformation gefolgt von einer Translation und Rotation (affine Transformation) dargestellt werden kann.
Bei der Bewegungskompensation werden die Bewegungsvektoren eines Bildes verwendet, um eine neue Transformation zu erzeugen.
Bewegungsschätzung und -kompensation sind wesentliche Bestandteile der Videokomprimierung, da sie die Verwendung zeitlicher Redundanz ermöglichen. Fast alle Videokodierungsstandards, einschließlich der aktuellsten HEVC, verwenden blockbasierte Bewegungsschätzung und -kompensation.
Die Rekonstruktion der 3D-Geometrie einer Szene aus bewegten Kamerabildern ist das, worum es bei der gleichzeitigen Lokalisierung und Kartierung geht.
{Ende Kapitel 1}
Kapitel 2: Bewegungsausgleich
Bei der Vorhersage des nächsten Frames eines Videos basierend auf den Frames davor und danach ist die Bewegungskompensation eine algorithmische Technik, die verwendet wird, um Kamera- und/oder Objektbewegungen zu berücksichtigen. Es wird verwendet, um MPEG-2-Dateien und andere Videokomprimierungsformate durch Codierung von Videodaten zu erstellen. Anhand der Transformation von einem Referenzbild in das aktuelle Bild liefert die Bewegungskompensation eine Beschreibung des Bildes. Der zeitliche Zeitraum des referenzierten Bildes ist nicht begrenzt. Die Komprimierungseffizienz wird verbessert, wenn neue Bilder mit hoher Genauigkeit aus alten synthetisiert werden können.
In den Videocodierungsstandards sind die Bewegungskompensation und die diskrete Kosinustransformation die beiden wichtigsten Videokomprimierungstechniken (DCT). Blockbewegungskompensation (BMC) oder bewegungskompensierte DCT (MC-DCT) Hybridcodierung wird häufig in den meisten Videocodierungsstandards wie den Formaten H.26x und MPEG (MC DCT) verwendet.
Die Bewegungskorrektur macht sich die Tatsache zunutze, dass die Kamera oder ein Objekt in der sich ändernden Bildposition oft der einzige Unterschied zwischen aufeinanderfolgenden Bildern eines Films ist. Dies bedeutet, dass die Daten, die zur Darstellung eines Frames in einem Videoclip verwendet werden, sehr wahrscheinlich mit den Daten identisch sind, die zur Darstellung des folgenden Frames verwendet werden.
Bei Verwendung der Bewegungskompensation hat ein Videostream einige vollständige (Referenz-)Frames, und die verbleibenden Frames enthalten nur die Daten, die erforderlich sind, um eines in das nächste umzuwandeln.
Im Folgenden finden Sie eine vereinfachte grafische Beschreibung der Funktionsweise der Bewegungskompensation. Es wurden zwei aufeinanderfolgende Standbilder aus dem Film Elephants Dream aufgenommen. Da es weniger Informationen enthält, wird der untere (bewegungskompensierte) Unterschied zwischen zwei Bildern viel besser komprimiert als die anderen Bilder. Daher sind die Daten, die zum Codieren eines kompensierten Frames benötigt werden, deutlich geringer als die Daten, die zum Codieren eines Differenzframes benötigt werden. Dies bedeutet auch, dass es auch möglich ist, die Informationen mit einem Differenzbild zu kodieren, was zu einer geringeren Komprimierungseffizienz führt, aber durch Einsparung von Codierungskomplexität ohne bewegungskompensierte Codierung; Tatsächlich nimmt die bewegungskompensierte Codierung (zusammen mit der Bewegungsschätzung und der Bewegungskompensation) mehr als 90 Prozent der Codierungskomplexität ein.
Bilder in MPEG werden entweder von früheren Frames (P-Frames) rückwärts oder von früheren und späteren Frames (B-Frames) vorwärts antizipiert. Da der nächste Frame benötigt wird, um B-Frames zu erstellen, muss die Bildsequenz in der