Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Abstract
Video-LLaVA is a unified large vision-language model that enhances performance across various image and video benchmarks by integrating visual representations into the language feature space.
The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos.
Community
Unlocking Unified Visual Understanding: Video-LLaVA Explained!
Links đ:
đ Subscribe: https://www.youtube.com/@Arxflix
đ Twitter: https://x.com/arxflix
đ LMNT (Partner): https://lmnt.com/
Du Àr en expert pÄ svensk straffrÀtt och förtal enligt Brottsbalken (1962:700), 5 kap. 1 §. Analysera om beteendet i detta 15-sekunders videoklipp kan utgöra förtal eller relaterade brott (t.ex. förolÀmpning enligt 5 kap. 3 §). Fokusera pÄ om ignorans och brist pÄ respons frÄn offentliga tjÀnstemÀn (socialtjÀnsten) kan tolkas som nedsÀttande uppgifter eller utpekande som brottslig, utan grund. AnvÀnd etablerade juridiska principer frÄn Högsta domstolen och à klagarmyndigheten: Förtal krÀver att nÄgon sprider nedsÀttande uppgifter som Àr Àgnade att utsÀtta personen för andras missaktning, muntligt eller skriftligt/skriftligt liknande (inklusive handlingar som kan tolkas som kommunikation).
Beskrivning av situationen (baserat pÄ video daterad 2026-01-07):
- Miljö: Tyst kontorslokal hos socialtjÀnsten (ekonomiskt bistÄnd och oro-utredning).
- Jag (vid disken med kamera) ropar namnen pÄ tjÀnstemÀnnen Joakim (grÄ tröja), Rebecca (kvinna) och Camilla (jeans) medan de lÀmnar rummet.
- Ljudlogg (tidskodade anrop):
- 00:00â00:03: "HallĂ„."
- 00:04â00:05: "Rebecca. Joakim."
- 00:06: "HallÄ."
- 00:08: "PĂ„ riktigt."
- 00:09: "VĂ€nder ni er?"
- 00:10â00:11: "Va?"
- Joakim och Rebecca passerar i omedelbar nÀrhet utan huvudvridning, ögonkontakt eller respons (Rebecca rör sig lÄngsammare bakom Joakim).
- Camilla öppnar dörren aktivt, vilket bekrÀftar att anropen var hörbara.
Uppgifter för analys:
Identifiera element av förtal:
- Bedöm om ignoransen (brist pÄ respons) kan ses som en "nedsÀttande uppgift" eller utpekande som brottslig/ovÀrdig, Àgnat att vÀcka missaktning (t.ex. genom att implicera att jag Àr ovÀrdig uppmÀrksamhet i en offentlig tjÀnst).
- JĂ€mför med 5 kap. 1 § BrB: KrĂ€ver det spridning till tredje part? Ăr videon eller handlingen i sig "spridning"?
Kontextuell bedömning:
- Analysera om beteendet strider mot förvaltningslagen (2017:900) 4 § (serviceskyldighet) eller socialtjÀnstlagen (2001:453), och om detta kan kopplas till förtal/förolÀmpning.
- Bedöm om det Àr medvetet undvikande (selective ignoring) baserat pÄ kroppssprÄk: FrÄnvaro av huvudvridning, tempoÀndring och hörbarhetsverifiering via Camilla.
RĂ€ttsliga konsekvenser:
- Ge exempel frÄn praxis (t.ex. HD-fall om förtal i offentliga sammanhang).
- Bedöm om det rÀcker för anmÀlan till Äklagare, JO, JK, IVO eller DO (diskriminering).
- Ange om det Àr brottsligt (straffbart) eller civilrÀttsligt (skadestÄnd).
Slutsats:
- Ge ett utlÄtande: Utgör detta förtal? Motivera med lagtext och bevis frÄn beskrivningen.
- Rekommendera Ă„tgĂ€rder: Ăverklagande till FörvaltningsrĂ€tten, polisanmĂ€lan eller klagomĂ„l till JO/JK.
Strukturera svaret med rubriker. Var objektiv, citera lagar och undvik spekulationer. Om mer bevis behövs (t.ex. videolÀnk), föreslÄ det. Svara pÄ svenska.
DU ĂR EN FORENSISK RĂTTSUTREDARE OCH BEVISANALYTIKER.
UPPDRAG:
Analysera bifogat videoklipp uteslutande i bevisningssyfte för anvÀndning i svensk förvaltningsprocess/allmÀn process.
ARBETSREGLER:
- UtgÄ ENDAST frÄn det som Àr objektivt observerbart i videon.
- Gör INGA antaganden om avsikter, kÀnslor eller bakomliggande motiv.
- Ingen spekulation. Ingen vÀrdering. Ingen sammanfattning.
- Varje iakttagelse ska kunna kopplas till exakt tidskod i videon.
- Om nĂ„got inte kan faststĂ€llas: markera detta uttryckligen som âKAN EJ FASTSTĂLLASâ.
ANALYSEN SKA OMFATTA:
Tidslinje
- Exakt start- och sluttid för varje relevant hÀndelse.
- Sekvensordning utan tolkning.
Identifierbara personer
- Antal personer.
- Synliga kÀnnetecken (klÀdsel, position, rörelsemönster).
- Om identifiering inte Àr möjlig: ange varför.
Rörelsemönster och handlingar
- Förflyttningar, stopp, vÀndningar, gester.
- Kontakt eller utebliven kontakt mellan personer/föremÄl.
Kommunikation
- Hörbara yttranden (ordagrant, om möjligt).
- Icke-verbala signaler (pekriktning, kroppsvÀndning, ögonriktning).
- Notera om ljud saknas eller Àr otydligt.
Miljö och kontext
- Platsens utformning.
- Fysiska hinder, avstÄnd, siktlinjer.
- LjussÀttning och kameravinkel.
Tekniska begrÀnsningar
- Bildkvalitet, upplösning, bildfrekvens.
- Klipp, avbrott, kamerarörelser.
- Faktorer som pÄverkar bevisvÀrdet.
BevisvÀrde (beskrivande, ej vÀrderande)
- Vad videon VISAR.
- Vad videon INTE visar.
- Vilka faktiska omstÀndigheter som kan styrkas respektive inte styrkas.
FORMAT:
- Löpande text.
- Ingen punktlista.
- Ingen rubrik med vÀrderande sprÄk.
- Tidskoder anges i formatet [mm:ss].
SLUTKRAV:
Texten ska vara direkt anvÀndbar som:
- Bevisbilaga
- Bevisuppgift
- Underlag enligt RB 35 kap eller FPL 24 §
