네, 아주 정확한 질문입니다. VEO나 Sora 같은 차세대 AI 모델들이 사운드까지 통합하여 생성해 줄 수는 있겠지만, 어떤 화면을, 어떻게 보여줄 것인가를 지시하는 것은 여전히 창작자의 몫입니다. AI는 감독의 ‘의도’를 읽을 수 없기 때문이죠.
결국 AI에게 프롬프트를 제공하는 것은, 과거 영화 현장에서 감독이 촬영감독, 조명감독, 배우에게 디렉팅하는 과정을 텍스트와 이미지로 옮겨온 것이라고 생각하시면 됩니다.
전통적인 콘티에 포함되는, 그리고 AI 프롬프트에 반드시 녹여내야 할 핵심 지시 요소들을 자세히 알려드리겠습니다. 크게 ‘화면 구성’, ‘카메라’, ‘연출’ 세 가지로 나눌 수 있습니다.
콘티에 들어가는 핵심 지시 요소 (AI 프롬프트의 재료)
1. 화면 구성 요소: 무엇을 보여줄 것인가?
이것은 컷 안에 무엇이 담길지를 결정하는 가장 기본적인 정보입니다.
- 인물 (Character):
- 누가 나오는가? (예: 주인공 ‘서아’, 의문의 남자)
- 무엇을 하고 있는가? (예: 창밖을 본다, 달려간다, 커피를 마신다)
- 어떤 표정인가? (예: 슬픈 표정, 결심에 찬 표정, 놀란 표정)
- 배경 (Background/Setting):
- 여기는 어디인가? (예: 비 내리는 밤의 골목길, 햇살이 들어오는 아늑한 카페)
- 시간대는 언제인가? (예: 새벽, 해질녘, 한낮)
- 소품 (Props):
- 장면에 중요한 소품이 있는가? (예: 테이블 위의 권총, 주인공이 든 낡은 책)
2. 카메라 관련 요소: 어떻게 찍을 것인가?
이 부분이 영상 언어의 핵심이며, AI에게 가장 구체적으로 지시해야 하는 부분입니다.
가. 샷의 크기 (Shot Size) - 인물과 배경의 비율 결정
- 익스트림 클로즈업 (Extreme Close-Up, ECU): 눈, 입 등 특정 부위를 극단적으로 확대. 감정의 절정 표현.
- 클로즈업 (Close-Up, CU): 얼굴을 꽉 채움. 인물의 감정 전달에 가장 효과적.
- 바스트 샷 (Bust Shot, BS): 가슴 위 상반신. 인터뷰, 대화 장면에 주로 사용.
- 웨이스트 샷 (Waist Shot, WS): 허리 위까지. 인물의 동작을 보여주기 시작.
- 풀 샷 (Full Shot, FS): 인물의 전신을 보여줌. 의상, 전체적인 움직임을 보여줄 때 사용.
- 롱 샷 (Long Shot, LS): 인물과 함께 주변 배경을 넓게 보여줌. 인물이 처한 상황 설명.
- 익스트림 롱 샷 (Extreme Long Shot, ELS): 거대한 풍경 속의 작은 인물. 장면의 시작이나 끝, 웅장함을 표현.
나. 카메라 앵글 (Camera Angle) - 카메라의 높이와 각도
- 아이 레벨 (Eye Level): 눈높이. 가장 안정적이고 객관적인 시선.
- 로우 앵글 (Low Angle): 아래에서 위로. 인물을 위압적이고 강력하게 보이게 함.
- 하이 앵글 (High Angle): 위에서 아래로. 인물을 무력하고 왜소하게 보이게 함.
- 버즈 아이 뷰 (Bird’s-Eye View): 수직 위에서 아래로. 전체적인 상황을 조망.
- 더치 앵글 (Dutch Angle/Tilt): 카메라를 기울여 찍음. 불안, 혼란, 긴장감 표현.
다. 카메라 워크 (Camera Movement) - 카메라의 움직임
- 고정 (Static/Fixed): 움직임 없는 샷. 안정감, 정적인 느낌.
- 팬 (Pan): 카메라를 고정한 채 좌우로 회전. 넓은 공간을 훑어보거나, 움직이는 대상을 따라갈 때. (Pan right/left)
- 틸트 (Tilt): 카메라를 고정한 채 상하로 회전. 높은 빌딩을 훑거나, 인물을 위아래로 훑을 때. (Tilt up/down)
- 달리 (Dolly): 카메라가 레일 등을 이용해 피사체에 가까워지거나(Dolly-in) 멀어짐(Dolly-out). 집중, 감정 고조 또는 거리감 표현.
- 트랙 (Track): 움직이는 피사체를 따라 카메라가 평행으로 이동.
- 붐/크레인 (Boom/Crane): 카메라를 크레인에 달아 수직으로 상승(Boom-up) 또는 하강(Boom-down).
- 핸드헬드 (Hand-held): 카메라를 손으로 들고 촬영. 현장감, 불안정함, 다큐멘터리 느낌.
3. 연출 및 분위기 요소: 어떤 느낌을 줄 것인가?
- 조명 (Lighting): 장면의 분위기를 결정하는 핵심 요소.
- 조명의 종류: 자연광(창문에서 들어오는 햇빛), 인공광(형광등, 촛불)
- 조명의 톤: 하이키(전체적으로 밝음, 코미디/로맨스), 로우키(어둡고 그림자가 짙음, 스릴러/누아르)
- 조명의 색: 차가운 푸른빛, 따뜻한 오렌지빛, 극적인 붉은빛 등
- 특수 조명: 렘브란트 조명(한쪽에 삼각형 빛), 실루엣(역광) 등
- 초점 (Focus):
- 딥 포커스 (Deep Focus): 화면 전체(앞, 뒤)에 초점이 맞음.
- 아웃 포커스 (Out of Focus / Shallow Depth of Field): 특정 대상에만 초점을 맞추고 나머지는 흐리게 처리. 주제 강조.
- 포커스 이동 (Rack Focus): 한 대상에서 다른 대상으로 초점을 옮김. 시선 유도.
- 화면 전환 (Transition):
- 컷 (Cut): 가장 일반적인 전환.
- 디졸브 (Dissolve): 앞 장면과 뒷 장면이 겹치면서 전환. 시간의 흐름, 회상.
- 페이드 인/아웃 (Fade In/Out): 어두운 화면에서 밝아지거나, 밝은 화면에서 어두워짐. 장면의 시작과 끝.
- 사운드 지시 (Sound Direction): (AI가 생성하더라도 어떤 사운드를 넣을지 지시해야 함)
- 대사 (Dialogue): 누가 어떤 대사를 하는지.
- 효과음 (SFX): (강조되어야 할) 유리 깨지는 소리, 세찬 빗소리, 문 여는 소리.
- 배경음악 (BGM): 긴장감 넘치는 음악, 슬픈 바이올린 선율 등 분위기 지시.
예시: 이 모든 것을 콘티 한 컷에 담는다면?
[상황] 주인공이 방 안에서 충격적인 문자를 확인하는 장면
- 컷 그림: 침대에 걸터앉은 주인공의 상반신. 얼굴은 스마트폰 불빛만 비추고 있고, 표정은 충격으로 굳어있다.
- 콘티 지시사항 (AI 프롬프트로 변환될 내용):
- S15, C3 (장면/컷 번호)
- 샷: 바스트 샷(BS)
- 앵글: 미세한 하이 앵글 (주인공의 무력감 표현)
- 카메라워크: 달리 인(Dolly-in) - 3초에 걸쳐 주인공의 표정으로 서서히 다가간다.
- 내용: 주인공 ‘민준’, 스마트폰 화면을 보고 입을 살짝 벌린 채 굳어있다. 동공이 흔들린다.
- 조명: 로우키 조명. 방은 전체적으로 어둡고, 스마트폰 화면에서 나오는 차갑고 푸른빛이 유일한 광원(Key Light)이다.
- 사운드: (BGM) 긴장감을 고조시키는 낮은 앰비언트 사운드. (SFX) ‘카톡’ 알림음이 날카롭게 한 번 더 울린다.
- 시간: 4초.