Ohjelmallinen videon annotointikehys ML:lle ja sisällöntuotantoon
ML-tutkijat ja videosisällöntuottajat tarvitsivat joustavan, koodiohjatun videon annotointityökalun, joka pystyi tuottamaan annotoituja videoita mittakaavassa, koulutusdatan valmistelusta koulutuspeittokuviin.
Keskustele Projektistasi
Haaste
Olemassa olevat videon annotointityökalut olivat joko käyttöliittymäkeskeisiä ilman ohjelmallista APIa, tai komentorivityökaluja huonolla visualisoinnilla:
- ML-tiimit tarvitsivat rajauslaatikoita, polygoneja ja tunnisteita koulutusdataa varten mittakaavassa
- Kouluttajat tarvitsivat animoituja peittokuvia (nuolet, kohdevalot, teksti) opetusvideoita varten
- Perinteiset annotointityökalut eivät pystyneet käsittelemään avainkehysten interpolointia tai liukuvia animaatioita
- Mikään työpöytäsovellus ei yhdistänyt OpenCV-käsittelyä ammattimaiseen videolähtöön
Meidän Ratkaisumme
Rakensimme React/Remotion-pohjaisen videon annotointikehyksen, jossa on tyyppiturvallinen annotointijärjestelmä, avainkehysten interpolointi ja Tauri-työpöytäeditori.
Arkkitehtuuri
- Videoengine: Remotion 4.0 ohjelmalliseen kuvakohtaiseen renderöintiin
- Käyttöliittymä: React 18 + TypeScript Viten kanssa
- Työpöytäsovellus: Tauri 2 OpenCV.js:n ja ONNX Runtimen kanssa
- Vienti: FFmpeg korkealaatuiseen videolähtöön
Annotointityypit
- Rajaulaatikot – Suorakulmaiset alueet tunnisteilla ja luottamuspisteillä
- Ympyrät – Pisteannotaatiot konfiguroitavalla säteellä
- Polygonit – Monimutkaiset alueen ääriviivat epäsäännöllisille muodoille
- Tekstitunnisteet – Muotoillut tekstipeittokuvat sijoittelulla
- Nuolet – Suuntaa osoittavat indikaattorit virtaukseen tai huomion herättämiseen
- Vapaamuotoiset polut – Mukautetusti piirretyt annotaatiot
- Kohdevalot – Korosta alueita himmennetyllä taustalla
Animaatiojärjestelmä
- Avainkehysten interpolointi – Tasaiset siirtymät annotointitilojen välillä
- Helpotusfunktiot – Spring, ease-in-out, bounce ja mukautetut käyrät
- Koosteen sommittelu – Intro, annotointikerrokset, yhdistetty aikajana, outro
- Häivytysvaikutukset – Häivytys sisään/ulos konfiguroitavalla kestolla
Tärkeimmät ominaisuudet
- Tyyppiturvallinen API – Kattavat TypeScript-tyypit kaikille annotointiprimitiiveille
- Kohtausjärjestelmä – Kokoa monimutkaisia videoita kohtauksen rakennuspalikoista
- Avainkehysanimaatio – Animoi mitä tahansa annotoinnin ominaisuutta ajan mittaan
- Työpöytäeditori – Tauri-pohjainen käyttöliittymä reaaliaikaisella esikatselulla
- Eräsiirto – Renderöi annotoituja videoita FFmpegin kautta
- OpenCV-integraatio – Konenäön käsittely työpöytäsovelluksessa
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
Tekoälypohjainen pitkien elokuvien tuotantoputki
Kunnianhimoinen sisällöntuotantoprojekti, jonka tavoitteena on demokratisoida pitkien elokuvien tuotantoa rakentamalla päästä päähän AI-putki, joka muuntaa yksinkertaisen tekstikehotteen 15–90 minuutin elokuvaksi.
AI-pohjainen laskujen käsittely OCR:n ja QuickBooks-integraation avulla
Keskisuuri yritys, joka käsitteli satoja toimittajalaskuja kuukausittain, halusi poistaa manuaalisen tiedonsyötön poimimalla laskutiedot automaattisesti AI/OCR:n avulla ja synkronoimalla ne suoraan QuickBooks-järjestelmään kirjanpitoa ja maksujen seurantaa varten.
Usein kysytyt kysymykset
MicrocosmWorks rakensi tämän kehyksen tiimeille, jotka tarvitsevat annotaatioiden luomista mittakaavassa koodipohjaisilla säännöillä ihmisen klikkaamisen sijaan. Se tukee annotointiputkien kirjoittamista Python-skripteinä, jotka soveltavat esikoulutettuja detektoreita, temporaalista logiikkaa ja spatiaalisia sääntöjä automaattisesti harjoitusdatan luomiseen, ja sitten vievät tiedot COCO-, Pascal VOC- tai YOLO-muodoissa.
Kyllä, MicrocosmWorks toteutti temporaalisen annotointimallin, joka tukee kuva-alueita, avainkuvien interpolointia ja tapahtumapohjaisia tunnisteita alku-/loppuaikaleimoilla. Annotoijat voivat määritellä temporaalisia sääntöjä, kuten 'merkitse juoksuksi, kun asennon arviointi havaitsee molemmat jalat irti maasta yli 3 peräkkäisen kuvan ajan', automatisoidakseen toiminnan annotoinnin.
MicrocosmWorks rakensi validointiputken, joka laskee yhteensopivuuspisteet ohjelmallisten annotaatioiden ja ihmisen tarkistaman vertailusetin välillä, merkitsemällä kaikki annotaatiot, jotka alittavat konfiguroitavan IoU- tai temporaalisen päällekkäisyyden kynnyksen. Kehys tukee myös aktiivisen oppimisen työnkulkuja, jotka ohjaavat matalan luottamuksen annotaatiot ihmistarkastajille.
MicrocosmWorks rakensi kehyksen FFmpeg:n ja OpenCV:n päälle, tukien kaikkia tärkeimpiä konttimuotoja, mukaan lukien MP4, MKV, AVI ja MOV, koodekeilla H.264:stä ProResiin. Kehys käsittelee videoita niiden alkuperäisellä resoluutiolla, mutta tukee konfiguroitavaa skaalausta alaspäin annotointivaihetta varten nopeuttaakseen suorituskykyä suurilla datajoukoilla.
MicrocosmWorks toimittaa ML-infrastruktuuriprojekteja hintaan $25-$45/tunti, ja ohjelmallinen videon annotointikehys, joka sisältää sääntömoottorin, formaatinviejät ja laadun validointiputken, vaatii tyypillisesti 300-500 kehitystuntia. Kehys maksaa itsensä nopeasti takaisin vähentämällä manuaalisia annotointikustannuksia, jotka voivat olla $5-$15 per videominutti.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.