목록Diffusion Model (1)
코딩딩딩

1. 언어 명령 기반 영상 생성 트랜스포머 영상 생성 트랜스포머는 언어와 영상 데이터를 결합해 명령에 따라 영상을 생성하는 딥러닝 모델이다. 실제 환경이나 3D 시뮬레이션 등 다양한 상황에서 사용될 수 있다. • 언어 처리 부분: Language Encoder Transformer 기반 언어 모델을 사용해 텍스트 명령을 임베딩 벡터로 변환한다. • 시각 정보 처리 부분: Visual Encoder CNN과 Transformer를 결합해 입력된 영상 데이터를 feature로 변환한다. • 트랜스포머 인코더 Language Encoder와 Visual Encoder에서 나온 feature를 결합하여 트랜스포머 인코더 레이어를 통과시켜 융합된 Language-Visual feature를 추출한다...
인공지능/개념
2024. 12. 17. 21:00