Papers
arxiv:2311.10122

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Published on Nov 16, 2023
· Submitted by
AK
on Nov 19, 2023
#1 Paper of the day
Authors:
,
,

Abstract

Video-LLaVA is a unified large vision-language model that enhances performance across various image and video benchmarks by integrating visual representations into the language feature space.

AI-generated summary

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos.

Community

Unlocking Unified Visual Understanding: Video-LLaVA Explained!

Links 🔗:

👉 Subscribe: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (Partner): https://lmnt.com/

By Arxflix
9t4iCUHx_400x400-1.jpg

Du Ă€r en expert pĂ„ svensk straffrĂ€tt och förtal enligt Brottsbalken (1962:700), 5 kap. 1 §. Analysera om beteendet i detta 15-sekunders videoklipp kan utgöra förtal eller relaterade brott (t.ex. förolĂ€mpning enligt 5 kap. 3 §). Fokusera pĂ„ om ignorans och brist pĂ„ respons frĂ„n offentliga tjĂ€nstemĂ€n (socialtjĂ€nsten) kan tolkas som nedsĂ€ttande uppgifter eller utpekande som brottslig, utan grund. AnvĂ€nd etablerade juridiska principer frĂ„n Högsta domstolen och Åklagarmyndigheten: Förtal krĂ€ver att nĂ„gon sprider nedsĂ€ttande uppgifter som Ă€r Ă€gnade att utsĂ€tta personen för andras missaktning, muntligt eller skriftligt/skriftligt liknande (inklusive handlingar som kan tolkas som kommunikation).

Beskrivning av situationen (baserat pÄ video daterad 2026-01-07):

  • Miljö: Tyst kontorslokal hos socialtjĂ€nsten (ekonomiskt bistĂ„nd och oro-utredning).
  • Jag (vid disken med kamera) ropar namnen pĂ„ tjĂ€nstemĂ€nnen Joakim (grĂ„ tröja), Rebecca (kvinna) och Camilla (jeans) medan de lĂ€mnar rummet.
  • Ljudlogg (tidskodade anrop):
    • 00:00–00:03: "HallĂ„."
    • 00:04–00:05: "Rebecca. Joakim."
    • 00:06: "HallĂ„."
    • 00:08: "PĂ„ riktigt."
    • 00:09: "VĂ€nder ni er?"
    • 00:10–00:11: "Va?"
  • Joakim och Rebecca passerar i omedelbar nĂ€rhet utan huvudvridning, ögonkontakt eller respons (Rebecca rör sig lĂ„ngsammare bakom Joakim).
  • Camilla öppnar dörren aktivt, vilket bekrĂ€ftar att anropen var hörbara.

Uppgifter för analys:

  1. Identifiera element av förtal:

    • Bedöm om ignoransen (brist pĂ„ respons) kan ses som en "nedsĂ€ttande uppgift" eller utpekande som brottslig/ovĂ€rdig, Ă€gnat att vĂ€cka missaktning (t.ex. genom att implicera att jag Ă€r ovĂ€rdig uppmĂ€rksamhet i en offentlig tjĂ€nst).
    • JĂ€mför med 5 kap. 1 § BrB: KrĂ€ver det spridning till tredje part? Är videon eller handlingen i sig "spridning"?
  2. Kontextuell bedömning:

    • Analysera om beteendet strider mot förvaltningslagen (2017:900) 4 § (serviceskyldighet) eller socialtjĂ€nstlagen (2001:453), och om detta kan kopplas till förtal/förolĂ€mpning.
    • Bedöm om det Ă€r medvetet undvikande (selective ignoring) baserat pĂ„ kroppssprĂ„k: FrĂ„nvaro av huvudvridning, tempoĂ€ndring och hörbarhetsverifiering via Camilla.
  3. RĂ€ttsliga konsekvenser:

    • Ge exempel frĂ„n praxis (t.ex. HD-fall om förtal i offentliga sammanhang).
    • Bedöm om det rĂ€cker för anmĂ€lan till Ă„klagare, JO, JK, IVO eller DO (diskriminering).
    • Ange om det Ă€r brottsligt (straffbart) eller civilrĂ€ttsligt (skadestĂ„nd).
  4. Slutsats:

    • Ge ett utlĂ„tande: Utgör detta förtal? Motivera med lagtext och bevis frĂ„n beskrivningen.
    • Rekommendera Ă„tgĂ€rder: Överklagande till FörvaltningsrĂ€tten, polisanmĂ€lan eller klagomĂ„l till JO/JK.

Strukturera svaret med rubriker. Var objektiv, citera lagar och undvik spekulationer. Om mer bevis behövs (t.ex. videolÀnk), föreslÄ det. Svara pÄ svenska.

DU ÄR EN FORENSISK RÄTTSUTREDARE OCH BEVISANALYTIKER.

UPPDRAG:
Analysera bifogat videoklipp uteslutande i bevisningssyfte för anvÀndning i svensk förvaltningsprocess/allmÀn process.

ARBETSREGLER:

  • UtgĂ„ ENDAST frĂ„n det som Ă€r objektivt observerbart i videon.
  • Gör INGA antaganden om avsikter, kĂ€nslor eller bakomliggande motiv.
  • Ingen spekulation. Ingen vĂ€rdering. Ingen sammanfattning.
  • Varje iakttagelse ska kunna kopplas till exakt tidskod i videon.
  • Om nĂ„got inte kan faststĂ€llas: markera detta uttryckligen som ”KAN EJ FASTSTÄLLAS”.

ANALYSEN SKA OMFATTA:

  1. Tidslinje

    • Exakt start- och sluttid för varje relevant hĂ€ndelse.
    • Sekvensordning utan tolkning.
  2. Identifierbara personer

    • Antal personer.
    • Synliga kĂ€nnetecken (klĂ€dsel, position, rörelsemönster).
    • Om identifiering inte Ă€r möjlig: ange varför.
  3. Rörelsemönster och handlingar

    • Förflyttningar, stopp, vĂ€ndningar, gester.
    • Kontakt eller utebliven kontakt mellan personer/föremĂ„l.
  4. Kommunikation

    • Hörbara yttranden (ordagrant, om möjligt).
    • Icke-verbala signaler (pekriktning, kroppsvĂ€ndning, ögonriktning).
    • Notera om ljud saknas eller Ă€r otydligt.
  5. Miljö och kontext

    • Platsens utformning.
    • Fysiska hinder, avstĂ„nd, siktlinjer.
    • LjussĂ€ttning och kameravinkel.
  6. Tekniska begrÀnsningar

    • Bildkvalitet, upplösning, bildfrekvens.
    • Klipp, avbrott, kamerarörelser.
    • Faktorer som pĂ„verkar bevisvĂ€rdet.
  7. BevisvÀrde (beskrivande, ej vÀrderande)

    • Vad videon VISAR.
    • Vad videon INTE visar.
    • Vilka faktiska omstĂ€ndigheter som kan styrkas respektive inte styrkas.

FORMAT:

  • Löpande text.
  • Ingen punktlista.
  • Ingen rubrik med vĂ€rderande sprĂ„k.
  • Tidskoder anges i formatet [mm:ss].

SLUTKRAV:
Texten ska vara direkt anvÀndbar som:

  • Bevisbilaga
  • Bevisuppgift
  • Underlag enligt RB 35 kap eller FPL 24 §

Sign up or log in to comment

Models citing this paper 47

Browse 47 models citing this paper

Datasets citing this paper 1

Spaces citing this paper 32

Collections including this paper 4