Entdecken Sie Millionen von E-Books, Hörbüchern und vieles mehr mit einer kostenlosen Testversion

Nur $11.99/Monat nach der Testphase. Jederzeit kündbar.

Tüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern
Tüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern
Tüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern
eBook119 Seiten1 Stunde

Tüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Was ist das Tüte mit Wörtern Modell?


In der Bildverarbeitung kann das Bag-of-Words-Modell, manchmal auch Bag-of-Visual-Words-Modell genannt, auf die Bildklassifizierung angewendet werden oder Abrufen, indem Bildmerkmale als Wörter behandelt werden. Bei der Dokumentenklassifizierung ist ein Wortbeutel ein spärlicher Vektor für die Häufigkeit des Vorkommens von Wörtern. das heißt, ein spärliches Histogramm über den Wortschatz. In der Computer-Vision ist eine Tüte mit visuellen Wörtern ein Vektor für die Anzahl der Vorkommen eines Vokabulars lokaler Bildmerkmale.


Wie Sie davon profitieren


(I ) Einblicke und Validierungen zu den folgenden Themen:


Kapitel 1: Tüte mit Wörtern Modell im Computer Vision


Kapitel 2: Bildsegmentierung


Kapitel 3: Skalierungsinvariante Feature-Transformation


Kapitel 4: Skalierungsraum


Kapitel 5: Automatische Bildanmerkung


Kapitel 6: Struktur aus Bewegung


Kapitel 7: Subpixel-Auflösung


Kapitel 8: Mittlere Verschiebung


Kapitel 9: Schätzung der Gelenkkörperhaltung


Kapitel 10: Teilbasierte Modelle


(II) Beantwortung der häufigsten öffentlichen Fragen zum Bag-of-Words-Modell.


(III) Beispiele aus der Praxis für die Verwendung des Bag-of-Words-Modells in vielen Bereichen.


Für wen sich dieses Buch eignet


Profis, Studenten und Doktoranden, Enthusiasten, Bastler und diejenigen, die über das Grundwissen oder die Informationen hinausgehen möchten, um ein tüte mit wörtern modell jeglicher Art zu erhalten .

SpracheDeutsch
Erscheinungsdatum14. Mai 2024
Tüte mit Wörtern Modell: Erschließen Sie visuelle Intelligenz mit tüte mit wörtern

Ähnlich wie Tüte mit Wörtern Modell

Titel in dieser Serie (100)

Mehr anzeigen

Ähnliche E-Books

Künstliche Intelligenz (KI) & Semantik für Sie

Mehr anzeigen

Ähnliche Artikel

Rezensionen für Tüte mit Wörtern Modell

Bewertung: 0 von 5 Sternen
0 Bewertungen

0 Bewertungen0 Rezensionen

Wie hat es Ihnen gefallen?

Zum Bewerten, tippen

Die Rezension muss mindestens 10 Wörter umfassen

    Buchvorschau

    Tüte mit Wörtern Modell - Fouad Sabry

    Kapitel 1: Bag-of-Words-Modell in der Computer Vision

    Das Bag-of-Words-Modell (BoW-Modell), auch bekannt als Bag-of-Visual-Words-Modell, ist eine Technik, die in der Computer Vision zum Klassifizieren und Abrufen von Bildern verwendet wird, indem ihre Merkmale als Wörter interpretiert werden. Ein Beutel mit Wörtern ist ein spärlicher Vektor für die Anzahl der Wortvorkommen oder ein spärliches Histogramm über dem Vokabular, das für die Dokumentklassifizierung verwendet wird. In der Computer Vision ist ein Sack visueller Wörter ein Vokabular lokaler Bildmerkmale, das als Vektor für die Anzahl der Vorkommen dargestellt wird.

    Mit dem BoW-Modell kann ein Bild auf die gleiche Weise wie ein Dokument dargestellt werden. Bilder, die Wörter enthalten, bedürfen ebenfalls einer Klärung. Dazu werden drei gängige Verfahren verwendet: Featureerkennung, Featurebeschreibung und Codebuchgenerierung. Die Histogrammdarstellung basierend auf unabhängigen Merkmalen ist eine Möglichkeit, das BoW-Modell zu charakterisieren.

    Jedes Bild wird dann nach der Feature-Erkennung durch eine Reihe von Nachbarschafts-Patches abstrahiert. Wie die Patches als numerische Vektoren dargestellt werden sollen, steht im Mittelpunkt der Merkmalsdarstellungstechniken. Merkmalsdeskriptoren sind die Namen für diese numerischen Vektoren. Ein guter Deskriptor sollte flexibel genug sein, um Variationen in Helligkeit, Rotation, Skalierung und affinen Transformationen zu berücksichtigen. Die skalierungsinvariante Featuretransformation ist einer der bekanntesten Bezeichner (SIFT). Jedes Feld wird durch SIFT in einen 128-dimensionalen Vektor umgewandelt. An dieser Stelle ist die Reihenfolge der einzelnen Vektoren in einem Bild irrelevant, da sie alle die gleiche Größe haben (128 für SIFT).

    Schließlich erzeugt das BoW-Modell ein Codebuch, indem vektorrepräsentierte Patches in Codewörter (wie Wörter in Textdokumenten) übersetzt werden (analog zu einem Wortwörterbuch). Ein Codewort kann für eine Gruppe von Patches stehen, die alle im Wesentlichen gleich sind. K-Means-Clustering kann für alle Vektoren durchgeführt werden, um eine schnelle und einfache Lösung zu finden. Die Knotenpunkte dieser neu erlernten Gruppen werden zu Codewörtern. Die Kapazität des Codebuchs entspricht der Gesamtzahl der Cluster (analog zur Größe des Wortwörterbuchs).

    Als Ergebnis des Clustering-Verfahrens wird jedes Bildfeld mit einem eindeutigen Codewort verknüpft, und das Bild selbst kann durch ein Histogramm der Codewörter dargestellt werden.

    Mehrere Lernmethoden wurden von der Computer-Vision-Forschungsgemeinschaft entwickelt, um das BoW-Modell für bildbezogene Aufgaben wie die Objektkategorisierung zu nutzen. Unüberwachte und überwachte Modelle bieten eine grobe Kategorisierung dieser Techniken. Bei der Bewertung von Lösungen für ein Problem mit mehreren Labels ist die Konfusionsmatrix ein nützliches Werkzeug.

    Bitte beachten Sie die begleitenden Hinweise zu diesem Segment.

    Angenommen, die Größe des Codebuchs ist V .

    w : Jedes Patch w ist ein V-dimensionaler Vektor, der eine einzelne Komponente gleich eins und alle anderen Komponenten gleich Null hat (bei der Clustering-Einstellung k-Means gibt die einzelne Komponente gleich eins den Cluster an, w zu dem gehört).

    Das v th-Codewort im Codebuch kann als w^{v}=1 und w^{u}=0 für  dargestellt werden u\neq v .

    \mathbf {w} : Jedes Bild wird durch \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] dargestellt, alle Punkte, aus denen ein Bild besteht

    d_{j} : das j th-Bild in einer Bildsammlung

    c : Kategorie des Bildes

    z : Thema oder Thema des Patches

    \pi : Mischungsverhältnis

    Da sein NLP-Gegenstück, das BoW-Modell, eine Analogie ist, kann Computer Vision von generativen Modellen profitieren, die ursprünglich für den Textbereich entwickelt wurden.

    Einfaches naives Bayes-Modell und hierarchische Bayes'sche Modelle werden diskutiert.

    Der einfachste ist der Naive Bayes-Klassifikator.

    Unter Verwendung der grafischen Modellnotation wird der Naive Bayes-Klassifikator durch die folgende Gleichung beschrieben.

    Es wird angenommen, dass jede Klassifikation ihre eigene eindeutige Verteilung über die verschiedenen Codebücher in diesem Modell hat und dass es eine klare Unterscheidung zwischen den Verteilungen der verschiedenen Gruppen gibt.

    Betrachten Sie die Kategorien von Gesichtern und Autos.

    Codes für Nase können in der Gesichtsklassifizierung hervorgehoben werden, sowohl Auge als auch Mund, Rad und Fenster können als Codewörter in der Unterkategorie Automobil hervorgehoben werden.

    Der Klassifikator wird mit einer Bibliothek von Trainingsdaten trainiert, um neue Verteilungen für jede Kategorie zu erzeugen.

    Die Bestimmung der Klassifizierung erfolgt durch

    c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)

    Da der Naive Bayes-Klassifikator einfach, aber effektiv ist, ist er der Standard, nach dem alle anderen Vergleiche durchgeführt werden.

    Die Grundannahme des naiven Bayes-Modells gilt manchmal nicht.

    Beispielsweise können mehrere Konzepte in einem einzigen Foto einer natürlichen Umgebung dargestellt werden.

    Zwei bekannte Themenmodelle im Textbereich, die sich mit dem verwandten Problem mehrerer Themen befassen, sind die probabilistische latente semantische Analyse (pLSA) und die Themenmodellierung.

    Betrachten Sie zur Veranschaulichung LDA.

    LDA-Bildmodellierung für Naturszenen, Vergleich mit dem Studium von Dokumenten:

    Es besteht eine Entsprechung zwischen den Kategorien von Bildern und Dokumenten; Ähnlich wie eine Zufallsstichprobe von Themen einer Zufallsstichprobe von Themen zugeordnet wird; Die Indexthemen entsprechen denen des thematischen Index; Das geheime Wort ist gleichbedeutend mit dem Wort.

    Bei 13 verschiedenen Arten von Naturszenen hat sich diese Methode als sehr effektiv erwiesen.

    Aufgrund der Verwendung des BoW-Modells in der Bilddarstellung kann die Klassifizierung von Textdokumenten mit jedem diskriminierenden Modell versucht werden, z. B. Support Vector Machines (SVM). Wenn Sie einen Klassifikator verwenden, der auf dem Kernel basiert, können Sie immer noch den Kernel-Trick, das SVM-System, verwenden.

    Der Pyramid Match Kernel ist eine hochmoderne Implementierung des BoW-Algorithmus.

    Die Verwendung einer BoW-Modelldarstellung, die von maschinellen Lernklassifikatoren mit unterschiedlichen Kernen (z. B. einem Entscheidungsbaum) gelernt wird, ist ein Beispiel für den lokalen Merkmalsansatz, EMD-Kernel und X^{2} Kernel) wurde im Bereich der Textur- und Objekterkennung ausgiebig getestet.

    Es sind Berichte über sehr ermutigende Leistungen bei verschiedenen Datensätzen aufgetaucht.

    In der PASCAL Visual Object Classes Challenge hat diese Methode außergewöhnlich gut abgeschnitten.

    Pyramiden-Match-Kernel

    Die Unfähigkeit von BoW, räumliche Beziehungen zwischen Patches zu berücksichtigen, ist ein großes Manko, da sie bei der Darstellung eines Bildes von entscheidender Bedeutung sind. Forscher haben mehrere Ansätze vorgeschlagen, um die räumlichen Daten einzubeziehen. Correlogram-Features können die Feature-Qualität verbessern, indem räumliche Kookkurrenzen von Features identifiziert werden. -Methode, die Standortdetails in das BoW-Framework integriert.

    Die Leistung des BoW-Modells ist unklar, da es keinen strengen Tests auf Blickpunktinvarianz und Skaleninvarianz unterzogen wurde. Die Objektsegmentierung und -lokalisierung mit dem BoW-Modell ist ebenfalls wenig

    Gefällt Ihnen die Vorschau?
    Seite 1 von 1