"코딩딩딩"

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Today

Total

Tags more

관리 메뉴

목록Diffusion Model (1)

코딩딩딩

[개념정리] 언어 명령 기반 영상 생성 트랜스포머, 생성모델 유형, Diffusion Model

1. 언어 명령 기반 영상 생성 트랜스포머 영상 생성 트랜스포머는 언어와 영상 데이터를 결합해 명령에 따라 영상을 생성하는 딥러닝 모델이다. 실제 환경이나 3D 시뮬레이션 등 다양한 상황에서 사용될 수 있다. • 언어 처리 부분: Language Encoder Transformer 기반 언어 모델을 사용해 텍스트 명령을 임베딩 벡터로 변환한다. • 시각 정보 처리 부분: Visual Encoder CNN과 Transformer를 결합해 입력된 영상 데이터를 feature로 변환한다. • 트랜스포머 인코더 Language Encoder와 Visual Encoder에서 나온 feature를 결합하여 트랜스포머 인코더 레이어를 통과시켜 융합된 Language-Visual feature를 추출한다...

인공지능/개념 2024. 12. 17. 21:00

이전 Prev 1 Next 다음

목록Diffusion Model (1)

코딩딩딩

티스토리툴바