AI ์ผ๊ตด ์ถ์ ๋ฐ ์ธ๋ก ๋น๋์ค ๋ณํ์ ์ํ ์ค๋งํธ ๋ฆฌํ๋ ์ด๋ฐ
์ฝํ ์ธ ์ฌํ์ฉ ํ๋ซํผ์ ๋ฐํ์์ ํผ์ฌ์ฒด๋ฅผ ์๋ฒฝํ๊ฒ ์ค์์ ์ ์งํ๋ฉด์, ์๋ ์๋ฅด๊ธฐ๋ ํคํ๋ ์ด๋ฐ ์์ด ๊ฐ๋กํ(16:9) ๋กฑํผ ๋น๋์ค๋ฅผ ์ธ๋กํ(9:16) ์ํผ ํด๋ฆฝ์ผ๋ก ์๋์ผ๋ก ๋ณํํด์ผ ํ์ต๋๋ค.
ํ๋ก์ ํธ ์๋ดํ๊ธฐ๊ณผ์
๊ฐ๋ก ๋น๋์ค๋ฅผ ์ธ๋ก ํ์์ผ๋ก ๋ณํํ๋ ๊ฒ์ ์ํผ ์ฝํ ์ธ ์ ์์์ ๊ฐ์ฅ ๋ฒ๊ฑฐ๋ก์ด ๋จ๊ณ ์ค ํ๋์์ต๋๋ค:
- ํด๋ฆฝ๋ง๋ค ํ๋ ์์ ์๋์ผ๋ก ์๋ฅด๊ณ ์ฌ๋ฐฐ์นํ๋ ๊ฒ์ ์๊ฐ์ด ๋ง์ด ์์๋์์ต๋๋ค.
- ๋ค์ธ ๋ํ์์๋ ๋ฐํ์๊ฐ ๋ฐ๋ ๋๋ง๋ค ๋์ ์ธ ๋ฆฌํ๋ ์ด๋ฐ์ด ํ์ํ์ต๋๋ค.
- ์ ์ ์ธ ์ค์ ์๋ฅด๊ธฐ๋ ์์ง์ด๊ฑฐ๋ ์ค์์์ ๋ฒ์ด๋ ์์ ๋ฐํ์๋ฅผ ์๋ผ๋์ต๋๋ค.
- ๊ธฐ์กด์ ์ผ๊ตด ๊ฐ์ง๋ ์์ฒ ๊ฐ์ ํด๋ฆฝ์ ๋ํ ์ค์๊ฐ ๋ฆฌํ๋ ์ด๋ฐ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ์๋ ๋๋ฌด ๋๋ ธ์ต๋๋ค.
- ๋ค์ํ ์ฝํ ์ธ ์ ํ(์ธํฐ๋ทฐ, ์๋ก ๋ธ์ด๋ก๊ทธ, ํ๋ ์ ํ ์ด์ )์๋ ๋ค๋ฅธ ํ๋ ์ด๋ฐ ์ ๋ต์ด ํ์ํ์ต๋๋ค.
์ฐ๋ฆฌ์ ์๋ฃจ์
์ฐ๋ฆฌ๋ ๋น๋์ค ํ๋ ์์์ ์ผ๊ตด์ ๊ฐ์งํ๊ณ , ์์ง์์ ์ถ์ ํ๋ฉฐ, ํ์ฑ ํผ์ฌ์ฒด๋ฅผ ์ค์์ ์ ์งํ๊ธฐ ์ํด ์ธ๋ก ์๋ฅด๊ธฐ ์์ญ์ ๋์ ์ผ๋ก ์กฐ์ ํ๋ AI ๊ธฐ๋ฐ ์ผ๊ตด ์ถ์ ๋ฐ ์ค๋งํธ ๋ฆฌํ๋ ์ด๋ฐ ์์ง์ ๊ตฌ์ถํ์ต๋๋ค.
์ํคํ ์ฒ
- ์ผ๊ตด ๊ฐ์ง: ์๋์ ์ต์ ํ๋ YOLO ๊ธฐ๋ฐ ์ผ๊ตด ๊ฐ์ง ๋ชจ๋ธ
- ์ผ๊ตด ์ถ์ : ์๊ตฌ์ ์ธ ํผ์ฌ์ฒด ID๋ฅผ ์ฌ์ฉํ IoU ๊ธฐ๋ฐ ํ๋ ์-ํฌ-ํ๋ ์ ์ถ์
- ๋ฆฌํ๋ ์ด๋ฐ ์์ง: ์ผ๊ตด ์์น ๋ฐ ์์ง์์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋์ ์๋ฅด๊ธฐ ์์ญ ๊ณ์ฐ
- ํ์ฑ ๋ฐํ์ ์ฐ๋: ๋ฐํ์ ๊ฐ์ง ๊ธฐ๋ฅ๊ณผ ํตํฉํ์ฌ ๋งํ๋ ์ฌ๋์ ์ฐ์ ์ํฉ๋๋ค.
- ๋ ๋๋ง: ๋ถ๋๋ฌ์ด ํฌ ์ ํ ๊ธฐ๋ฅ์ด ์๋ FFmpeg ์๋ฅด๊ธฐ ํํฐ ์ฒด์ธ
๋ฆฌํ๋ ์ด๋ฐ ํ์ดํ๋ผ์ธ
- ์ผ๊ตด ๊ฐ์ง - ์ํ๋ง๋ ํ๋ ์ธ์ ๋ํด YOLO ์ผ๊ตด ๊ฐ์ง ์คํ
- ํผ์ฌ์ฒด ์ถ์ - IoU ๊ธฐ๋ฐ ์ถ์ ์ ์ฌ์ฉํ์ฌ ํ๋ ์ ์ ์ฒด์ ๊ฑธ์ณ ์ผ๊ตด ๊ฐ์ง๋ฅผ ์ฐ๊ฒฐ
- ๋ฐํ์ ์ฐ์ ์์ - ํ์ฑ ๋ฐํ์ ๊ฐ์ง์ ์ฐ๋๋ ๊ฒฝ์ฐ, ๋งํ๋ ํผ์ฌ์ฒด์ ์ฐ์ ์์ ๋ถ์ฌ
- ์๋ฅด๊ธฐ ๊ณ์ฐ - ๊ธฐ๋ณธ ํผ์ฌ์ฒด ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ์ 9:16 ์๋ฅด๊ธฐ ์์ญ ๊ฒฐ์
- ์ค๋ฌด๋ฉ - ์ด์ํ ์ ํ๋ฅผ ํผํ๊ธฐ ์ํด ์๋ฅด๊ธฐ ์์ง์์ ์ด์ง ์ ์ฉ
- ๋ ๋๋ง - FFmpeg์ด ๋ถ๋๋ฌ์ด ํฌ ์ ํ๊ณผ ํจ๊ป ๋์ ์๋ฅด๊ธฐ ์ ์ฉ
์ฃผ์ ๊ธฐ๋ฅ
- ๋ค์ค ํผ์ฌ์ฒด ์ฒ๋ฆฌ - ์ฌ๋ฌ ์ผ๊ตด์ ์ถ์ ํ๊ณ ๊ฐ ์ธ๊ทธ๋จผํธ๋ณ๋ก ๊ธฐ๋ณธ ํผ์ฌ์ฒด ๊ฒฐ์
- ๋ฐํ์ ์ธ์ ํ๋ ์ด๋ฐ - ๋ฐํ์ ๊ฐ์ง ๊ธฐ๋ฅ๊ณผ ํตํฉ๋ ๋ ํ์ฑ ๋ฐํ์์๊ฒ ์ฐ์ ์์ ๋ถ์ฌ
- ๋ถ๋๋ฌ์ด ์ ํ - ํผ์ฌ์ฒด ๊ฐ์ ์ด์ง ํฌ ๊ธฐ๋ฅ์ผ๋ก ์ด์ํ ์ปท ์ ๊ฑฐ
- ์ฝํ ์ธ ์ ํ ์ ์ - ์๋ก, ์ธํฐ๋ทฐ, ๊ทธ๋ฃน ์ฝํ ์ธ ์ ๋ํ ๋ค์ํ ํ๋ ์ด๋ฐ ์ ๋ต
- ์ผ๊ด ์ฒ๋ฆฌ - ๋จ์ผ ๋กฑํผ ๋น๋์ค์์ ์๋ฐฑ ๊ฐ์ ํด๋ฆฝ์ ๋ฆฌํ๋ ์ด๋ฐ
- ์๋ ๊ฐ์ ์์ - ๊ฐ์ง๋ถํฐ ์ต์ข ๋ ๋๋ง๊น์ง ์์ ์๋ํ
๊ฒฐ๊ณผ
๊ธฐ์ ์คํ
caseStudyDetail.more ์ฌ๋ก ์ฐ๊ตฌ
๋ ๋ง์ ๊ธฐ์ ๊ตฌํ ์ฌ๋ก๋ฅผ ์ดํด๋ณด์ธ์
ํฌ๋ก์ค ํ๋ซํผ ์์ ๋ฏธ๋์ด ์ค์ผ์ค๋ง & ์ฑ๊ณผ ๋ถ์
๋งค์ฃผ ์์ญ ๊ฐ์ ์ํผ ํด๋ฆฝ์ ์ ์ํ๋ ์ฝํ ์ธ ํฌ๋ฆฌ์์ดํฐ๋ค์ ๋จ์ผ ๋์๋ณด๋์์ TikTok, YouTube Shorts, Instagram Reels์ ์ฝํ ์ธ ๋ฅผ ๋ฐฐํฌํ๊ณ ๊ฒ์ ์ ๋ต์ ์ต์ ํํ ํต์ฐฐ๋ ฅ์ ์ป๊ธฐ ์ํ ํตํฉ ์ค์ผ์ค๋ง ๋ฐ ๋ถ์ ์์คํ ์ด ํ์ํ์ต๋๋ค.
๊ธ๋ก๋ฒ ์ฝํ ์ธ ๋ฐฐํฌ๋ฅผ ์ํ ๋ค๊ตญ์ด ์๋ง ๋ฒ์ญ
๊ตญ์ ์ ์ธ ์์ฒญ์์ธต์ ๊ฐ์ง ์ฝํ ์ธ ํฌ๋ฆฌ์์ดํฐ๋ค์ ์๋ณธ ์ค๋์ค๋ฅผ ๋ณด์กดํ๋ฉด์ ๋น๋์ค ์๋ง์ 30๊ฐ ์ด์์ ์ธ์ด๋ก ๋ฒ์ญํ์ฌ ๋๋ฌ ๋ฒ์๋ฅผ ํ์ฅํด์ผ ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ ์ธ๊ณ ์์ฒญ์๋ค์ด ๋ชจ๊ตญ์ด๋ก ์ฝํ ์ธ ๋ฅผ ์์ฒญํ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
MicrocosmWorks implemented a hybrid tracking approach that combines a lightweight face detector running every 5th frame with a KCF optical flow tracker for inter-frame predictions. When occlusion is detected via confidence score drops, the system maintains the last known trajectory with Kalman filtering and re-acquires the face within 200ms of it becoming visible again.
MicrocosmWorks built a saliency-weighted cropping algorithm that prioritizes detected faces, then text regions, then motion areas when determining the 9:16 crop window position. For multi-person scenes, the system uses a configurable priority ranking, defaulting to the active speaker or the largest face, with smooth interpolation between crop positions to avoid jarring shifts.
Yes, MicrocosmWorks implemented a fallback saliency detection mode that activates when no faces are present, using a combination of motion detection, visual attention modeling, and mouse cursor tracking for screen recordings. The system intelligently follows the most relevant content region even in purely visual or text-based footage.
MicrocosmWorks optimized the pipeline for batch workflows, achieving 8x real-time processing speed on a single NVIDIA T4 GPU, meaning a 10-minute video is reframed in approximately 75 seconds. The system supports parallel processing across multiple GPUs, scaling linearly for high-volume content operations.
MicrocosmWorks develops AI video reframing systems at rates of $25-$45/hr, with a full face tracking and smart reframing solution including model optimization, batch processing support, and API integration typically requiring 350-550 development hours. This investment eliminates the need for manual reframing editors, which typically cost $5-$15 per video.
๋น์ฆ๋์ค ํ์ ์ ์์ํ ์ค๋น๊ฐ ๋์ จ๋์?
๊ทํ์ ๊ณผ์ ์ ์ ์ฌํ ์๋ฃจ์ ์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ ผ์ํด ๋ณด๊ฒ ์ต๋๋ค.