Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision
Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision
Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision
eBook113 Seiten1 Stunde

Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist Bewegungsschätzung


In der Computer Vision und Bildverarbeitung ist Bewegungsschätzung der Prozess der Bestimmung von Bewegungsvektoren, die die Transformation von einem 2D-Bild in ein anderes beschreiben; normalerweise aus benachbarten Bildern in einer Videosequenz. Es handelt sich um ein falsch gestelltes Problem, da die Bewegung in drei Dimensionen (3D) stattfindet, die Bilder jedoch eine Projektion der 3D-Szene auf eine 2D-Ebene sind. Die Bewegungsvektoren können sich auf das gesamte Bild oder auf bestimmte Teile beziehen, beispielsweise rechteckige Blöcke, beliebig geformte Flecken oder sogar pro Pixel. Die Bewegungsvektoren können durch ein Translationsmodell oder viele andere Modelle dargestellt werden, die die Bewegung einer echten Videokamera annähern können, z. B. Rotation und Translation in allen drei Dimensionen und Zoom.


Wie Sie wollen Nutzen


(I) Erkenntnisse und Validierungen zu den folgenden Themen:


Kapitel 1: Bewegungsschätzung


Kapitel 2: Bewegungskompensation


Kapitel 3: Block-matching_algorithm


Kapitel 4: H.261


Kapitel 5: H.262/MPEG-2_Part_2


Kapitel 6: Advanced_Video_Coding


Kapitel 7: Globale_Bewegungskompensation


Kapitel 8: Blockanpassung_und_3D-Filterung


Kapitel 9: Video_komprimierte_Bildtypen


Kapitel 10: Video_Superauflösung


(II) Beantwortung der häufigsten öffentlichen Fragen zur Bewegungsschätzung.


(III) Beispiele aus der Praxis für die Verwendung der Bewegungsschätzung in vielen Bereichen.


Für wen sich dieses Buch eignet


Profis, Studenten und Doktoranden, Enthusiasten, Bastler und diejenigen, die über das Grundwissen oder die Informationen für jede Art von Bewegungsschätzung hinausgehen möchten.


 


 

SpracheDeutsch
Erscheinungsdatum12. Mai 2024
Bewegungsschätzung: Fortschritte und Anwendungen in der Computer Vision

Mehr von Fouad Sabry lesen

Ähnlich wie Bewegungsschätzung

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Bewegungsschätzung

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Bewegungsschätzung - Fouad Sabry

    Kapitel 1: Bewegungsschätzung

    Die Schätzung der Bewegungsmenge zwischen zwei 2D-Bildern, typischerweise aus aufeinanderfolgenden Frames in einer Videosequenz, wird als Bewegungsschätzung bezeichnet. Bewegung findet in drei Dimensionen statt, aber die Bilder sind Projektionen der dreidimensionalen Szene auf eine zweidimensionale Ebene, was dies zu einem schlecht gestellten Problem macht. Die Bewegungsschätzung kann für das gesamte Bild (globale Bewegungsschätzung) oder für kleinere Bereiche oder einzelne Pixel durchgeführt werden. Das Translationsmodell ist nur eines von vielen, die zur Darstellung der Bewegungsvektoren verwendet werden können, die Dinge wie Rotation, Translation in allen drei Dimensionen und Vergrößern und Verkleinern umfassen können.

    Bewegungsschätzung und optischer Fluss werden oft synonym verwendet, bedeuten aber dasselbe. Bildregistrierung und Stereokorrespondenz hängen auch auf diese Weise zusammen. In Wirklichkeit beschreibt jeder dieser Ausdrücke eine Methode zum Auffinden übereinstimmender Features in aufeinanderfolgenden Standbildern oder Videoframes. Punkte in zwei Fotos (Rahmen) derselben realen Szene oder desselben Objekts sind typischerweise derselbe Punkt in Raum und Zeit. Die Matching-Metrik, ein Maß dafür, wie ähnlich zwei Bildpunkte sind, muss definiert werden, bevor die Bewegungsschätzung beginnen kann. Hier gibt es keine allgemeingültige Antwort; Vielmehr hängt die optimale Übereinstimmungsmetrik vom Zweck der geschätzten Bewegung und dem Optimierungsansatz ab, der während der Schätzphase verwendet wird.

    Basierend auf der Position desselben oder eines vergleichbaren Makroblocks in einem anderen Bild, dem sogenannten Referenzbild, wird ein Bewegungsvektor erstellt, der den betreffenden Makroblock im Originalbild darstellt.

    Gemäß dem H.264/MPEG-4 AVC-Standard ist der Bewegungsvektor definiert als:

    Die Koordinaten des dekodierten Bildes werden in Bezug auf die Koordinaten des Referenzbildes über einen zweidimensionalen Vektor versetzt, der als Bewegungsvektor bezeichnet wird und für die Zwischenvorhersage verwendet wird.

    Sowohl pixelbasierte (direkte) als auch merkmalsbasierte (indirekte) Ansätze können verwendet werden, um Bewegungsvektoren (indirekt) zu lokalisieren. Zwei Papiere, eines von jeder Seite einer bekannten Kontroverse, wurden geschrieben, um eine Lösung zu finden.

    Algorithmus zum Zuordnen von Blöcken

    Techniken, die auf Phasenkorrelation und Frequenzbereich basieren

    Rekursive Pixel-Algorithmen

    Optischer Fluss

    Indirekte Techniken verwenden Funktionen wie die Eckenerkennung, um Übereinstimmungen in benachbarten Frames zu finden, typischerweise durch die Anwendung einer statistischen Funktion auf einen kleinen oder großen Bereich. Das Ziel der statistischen Funktion ist es, fehlerhafte Bewegungsübereinstimmungen herauszufiltern.

    RANSAC ist ein Beispiel für eine nützliche statistische Funktion.

    Man könnte argumentieren, dass die Definition der Matching-Kriterien ein notwendiger Schritt in praktisch jedem Ansatz ist. Der einzige wirkliche Unterschied besteht darin, zuerst jedes Pixel zu vergleichen (wie bei der Quadratur der Differenz) und dann über einen lokalen Bildbereich zusammenzufassen (wie bei merkmalsbasierten Ansätzen) oder umgekehrt (Blockbasisbewegung und filterbasierte Bewegung). Eine neue Methode zum Abgleichen von Kriterien funktioniert, indem zuerst ein lokaler Bildbereich an jeder Pixelposition zusammengefasst wird (unter Verwendung einer Featuretransformation wie der Laplace-Transformation) und dann die beiden Zusammenfassungssätze verglichen werden. Während einige Übereinstimmungskriterien Paare von Datenelementen eliminieren können, die nicht wirklich zusammengehören, während sie eine hohe Übereinstimmungsbewertung aufweisen, können andere Übereinstimmungskriterien dies nicht.

    In der Computer Vision und Bildverarbeitung wird die affine Bewegungsschätzung verwendet, um eine grobe Annäherung an die relative Bewegung zweier Bilder oder Bilder zu berechnen. Geht davon aus, dass die Bewegung durch eine lineare Transformation gefolgt von einer Translation und Rotation (affine Transformation) dargestellt werden kann.

    Bei der Bewegungskompensation werden die Bewegungsvektoren eines Bildes verwendet, um eine neue Transformation zu erzeugen.

    Bewegungsschätzung und -kompensation sind wesentliche Bestandteile der Videokomprimierung, da sie die Verwendung zeitlicher Redundanz ermöglichen. Fast alle Videokodierungsstandards, einschließlich der aktuellsten HEVC, verwenden blockbasierte Bewegungsschätzung und -kompensation.

    Die Rekonstruktion der 3D-Geometrie einer Szene aus bewegten Kamerabildern ist das, worum es bei der gleichzeitigen Lokalisierung und Kartierung geht.

    {Ende Kapitel 1}

    Kapitel 2: Bewegungsausgleich

    Bei der Vorhersage des nächsten Frames eines Videos basierend auf den Frames davor und danach ist die Bewegungskompensation eine algorithmische Technik, die verwendet wird, um Kamera- und/oder Objektbewegungen zu berücksichtigen. Es wird verwendet, um MPEG-2-Dateien und andere Videokomprimierungsformate durch Codierung von Videodaten zu erstellen. Anhand der Transformation von einem Referenzbild in das aktuelle Bild liefert die Bewegungskompensation eine Beschreibung des Bildes. Der zeitliche Zeitraum des referenzierten Bildes ist nicht begrenzt. Die Komprimierungseffizienz wird verbessert, wenn neue Bilder mit hoher Genauigkeit aus alten synthetisiert werden können.

    In den Videocodierungsstandards sind die Bewegungskompensation und die diskrete Kosinustransformation die beiden wichtigsten Videokomprimierungstechniken (DCT). Blockbewegungskompensation (BMC) oder bewegungskompensierte DCT (MC-DCT) Hybridcodierung wird häufig in den meisten Videocodierungsstandards wie den Formaten H.26x und MPEG (MC DCT) verwendet.

    Die Bewegungskorrektur macht sich die Tatsache zunutze, dass die Kamera oder ein Objekt in der sich ändernden Bildposition oft der einzige Unterschied zwischen aufeinanderfolgenden Bildern eines Films ist. Dies bedeutet, dass die Daten, die zur Darstellung eines Frames in einem Videoclip verwendet werden, sehr wahrscheinlich mit den Daten identisch sind, die zur Darstellung des folgenden Frames verwendet werden.

    Bei Verwendung der Bewegungskompensation hat ein Videostream einige vollständige (Referenz-)Frames, und die verbleibenden Frames enthalten nur die Daten, die erforderlich sind, um eines in das nächste umzuwandeln.

    Im Folgenden finden Sie eine vereinfachte grafische Beschreibung der Funktionsweise der Bewegungskompensation. Es wurden zwei aufeinanderfolgende Standbilder aus dem Film Elephants Dream aufgenommen. Da es weniger Informationen enthält, wird der untere (bewegungskompensierte) Unterschied zwischen zwei Bildern viel besser komprimiert als die anderen Bilder. Daher sind die Daten, die zum Codieren eines kompensierten Frames benötigt werden, deutlich geringer als die Daten, die zum Codieren eines Differenzframes benötigt werden. Dies bedeutet auch, dass es auch möglich ist, die Informationen mit einem Differenzbild zu kodieren, was zu einer geringeren Komprimierungseffizienz führt, aber durch Einsparung von Codierungskomplexität ohne bewegungskompensierte Codierung; Tatsächlich nimmt die bewegungskompensierte Codierung (zusammen mit der Bewegungsschätzung und der Bewegungskompensation) mehr als 90 Prozent der Codierungskomplexität ein.

    Bilder in MPEG werden entweder von früheren Frames (P-Frames) rückwärts oder von früheren und späteren Frames (B-Frames) vorwärts antizipiert. Da der nächste Frame benötigt wird, um B-Frames zu erstellen, muss die Bildsequenz in der

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1