Automaattinen kuvatekstien tyylittely & videon vientimoottori
Videosisällöntuottajat tarvitsivat nopean, luotettavan järjestelmän soveltaakseen ammattitason animoituja kuvatekstejä lyhytmuotoisiin videoihin pikselintarkalla renderoinnilla eri tyylien ja alustojen yli.
Keskustele Projektistasi
Haaste
Tyyliteltyjen kuvatekstien manuaalinen lisääminen videoihin oli suurin yksittäinen pullonkaula lyhytmuotoisen sisällön tuotannossa:
- Jokainen alusta (TikTok, Instagram, YouTube) vaati erilaisen kuvatekstimuotoilun
- Suositut luojatyylit (MrBeast, Hormozi) vaativat tiettyjä fontteja, värejä ja animaatioita
- Sanatasoisia animaatioita (karaoke-korostus, pomppuefektit) oli mahdotonta luoda manuaalisesti mittakaavassa
- Yli 50 leikkeen eräkäsittely yhdestä pitkämuotoisesta videosta ylikuormitti standardityökalut
Meidän Ratkaisumme
Rakensimme erillisen kuvatekstien tyylittely- ja renderöintimoottorin käyttäen FFmpeg-ohjelmaa Advanced SubStation Alpha (ASS) -tekstityksen tuella ja AI-pohjaisella transkription korjauksella.
Arkkitehtuuri
- Renderöintimoottori: FFmpeg ASS-tekstityksen luonnilla
- Transkriptio: OpenAI Whisper sanatasoisilla aikaleimoilla
- Korjaus: GPT-4o AI-pohjaiseen transkription tarkkuuden parantamiseen
- Käsittely: Node.js muistiooptimoidulla eräkäsittelyllä
- Tallennustila: Monipilvi (Azure, AWS S3, Google Cloud Storage, Cloudflare R2)
Kuvatekstityylit
- KARAOKE - Sana sanalta -korostus äänen soidessa
- ALI - Ali Abdaal -vaikutteinen selkeä typografia
- MR_BEAST - Rohkea, huomiota herättävä iskuteksti
- HORMOZI - Alex Hormozin tyyliset ammattimaiset kuvatekstit
- BOX - Kehystetty/korostettu sanapainotus
- Platform-Optimized - Erityisiä tyylejä TikTokille, Instagramille, YouTubelle
Käsittelyputki
- Äänen poiminta - Erota ääniraita videosta
- Whisper-transkriptio - Sanatasoiset aikaleimat luottamuspisteillä
- AI-korjaus - GPT-4o puhdistaa transkriptiovirheet ja muotoilun
- ASS-luonti - Muunna tyylitellyt kuvatekstit ASS-tekstitysmuotoon
- FFmpeg-renderöinti - Yhdistä kuvatekstit videokuviin
- Eräkäsittely - Käsittele yli 50 segmenttiä muistiooptimoinnilla
Tärkeimmät ominaisuudet
- Yli 14 kuvatekstityyliä - Jokainen ainutlaatuisilla fonteilla, väreillä, animaatioilla ja sijoittelulla
- Sanatason animaatio - Karaoke-korostus, pomppu-, häivytys-, skaalaefektit
- AI-transkription korjaus - GPT-4o parantaa Whisperin tuotoksen tarkkuutta
- Erärenderöinti - Käsittele kokonaisia videokirjastoja rinnakkain
- Muistiooptimointi - Käsittelee suuria tiedostoja ilman OOM-virheitä
- Monipilvitallennus - Automaattinen lataus määritettyihin pilvipalveluntarjoajiin
Tulokset
Teknologiapino
caseStudyDetail.more Tapaustutkimukset
Tutustu lisää teknisiin toteutuksiimme
Ristitason sosiaalisen median ajastus ja suorituskykyanalytiikka
Sisällöntuottajat, jotka tuottivat kymmeniä lyhytmuotoisia klippejä viikoittain, tarvitsivat yhtenäisen ajastus- ja analytiikkajärjestelmän sisällön jakeluun TikTokiin, YouTube Shortseihin ja Instagram Reelseihin yhdestä hallintapaneelista – sekä tietoa julkaisustrategian optimoimiseksi.
Monikielinen tekstityskäännös globaaliin sisällönjakeluun
Kansainvälistä yleisöä tavoittelevat sisällöntuottajat halusivat laajentaa kattavuuttaan kääntämällä videotekstitykset yli 30 kielelle säilyttäen samalla alkuperäisen äänen, mikä mahdollistaa sisällön katselun katsojille maailmanlaajuisesti heidän omalla äidinkielellään.
Usein kysytyt kysymykset
MicrocosmWorks rakensi mallimoottorin, jossa on yli 40 esiasetettua tekstitystyyliä, mukaan lukien sanakohtainen korostus, karaoke-tyylinen progressiivinen paljastus ja animoidut tekstitehosteet. Moottori analysoi videon taustat valitakseen automaattisesti kontrastiset värit, varjojen syvyydet ja sijoittelun, jotka varmistavat luettavuuden vaihtelevissa kohtauskokoonpanoissa.
Kyllä, MicrocosmWorks integroi puhujan diarisaation, joka tunnistaa yksittäiset puhujat ääniraidalta ja määrittää kullekin puhujalle oman värimaailman tai sijoittelun tekstityksiin. Podcast-tyylisessä sisällössä, jossa on johdonmukaiset puhujat, järjestelmä oppii puhujien identiteetit ja ylläpitää heille määritettyjä tyylejä jaksojen välillä.
MicrocosmWorks integroi Whisper large-v3:n transkription taustaohjelmistoksi, saavuttaen 95-98 % sanantarkkuuden selkeälle englanninkieliselle äänelle ja 90-95 % aksentoidulle puheelle tai meluisissa ympäristöissä. Järjestelmä sisältää manuaalisen korjausliittymän, joka päivittää transkription ja uudelleen renderöi tyylitetyt tekstitykset automaattisesti korjatulla tekstillä.
MicrocosmWorks rakensi vientiputkiston polttaakseen tyylitetyt tekstitykset suoraan H.264- ja H.265-koodattuihin MP4-tiedostoihin millä tahansa resoluutiolla 720p:stä 4K:hon. Moottori vie myös erillisiä SRT-, VTT- ja ASS-tekstitystiedostoja tyylityksen metadatan kanssa alustoille, jotka tukevat tyyliteltyjen tekstitysten natiivia renderöintiä.
MicrocosmWorks toimittaa tekstitysteknologiaprojekteja hintaan 20-40 dollaria/tunti, ja täydellinen tekstitysten tyylitysmoottori, joka sisältää transkription integroinnin, yli 40 tyylimallia ja usean muodon viennin, vaatii tyypillisesti 350-500 kehitystuntia. Järjestelmä maksaa itsensä takaisin nopeasti sisällöntuotantotiimeille, jotka tällä hetkellä käyttävät 15-30 minuuttia videokohtaisten tekstitysten manuaaliseen tyylittelyyn.
Valmis Muuttamaan Liiketoimintaasi?
Keskustellaan siitä, miten voimme soveltaa vastaavia ratkaisuja haasteisiisi.