목록영상 주석 설명 (1)
코딩딩딩

1. 인코더 - 디코더 인코더는 입력 데이터를 임베딩으로 변환하여 고차원적 표현을 생성하고, 디코더는 이를 기반으로 문맥에 맞는 출력을 생성한다. • 영상 인코더 입력 영상에서 필수적인 시각적 특징을 추출하여 임베딩 또는 잠재 표현이라 불리는 고정된 크기의 벡터로 변환한다. CNN, ViT가 주로 사용된다. • 언어 인코더 텍스트를 숫자 표현으로 변환하고 문맥 정보를 캡처하여 고정된 크기의 임베딩 벡터를 생성한다. 과거에는 LSTM, GRU, RNN이 사용되었으나, 현재는 Self-Attention 기반 BERT, Transformers와 같은 모델이 주로 사용된다. • 영상 디코더 고정된 크기의 임베딩 벡터를 입력으로 받아 전체 해상도 이미지를 생성한다. 과거에는 CNN, VAE, GAN이 주로 ..
인공지능/개념
2024. 12. 14. 21:00