"코딩딩딩"

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Today

Total

Tags more

관리 메뉴

목록영상 주석 설명 (1)

코딩딩딩

[개념정리] Encoder, Decoder, Image-Captioning

1. 인코더 - 디코더 인코더는 입력 데이터를 임베딩으로 변환하여 고차원적 표현을 생성하고, 디코더는 이를 기반으로 문맥에 맞는 출력을 생성한다. • 영상 인코더 입력 영상에서 필수적인 시각적 특징을 추출하여 임베딩 또는 잠재 표현이라 불리는 고정된 크기의 벡터로 변환한다. CNN, ViT가 주로 사용된다. • 언어 인코더 텍스트를 숫자 표현으로 변환하고 문맥 정보를 캡처하여 고정된 크기의 임베딩 벡터를 생성한다. 과거에는 LSTM, GRU, RNN이 사용되었으나, 현재는 Self-Attention 기반 BERT, Transformers와 같은 모델이 주로 사용된다. • 영상 디코더 고정된 크기의 임베딩 벡터를 입력으로 받아 전체 해상도 이미지를 생성한다. 과거에는 CNN, VAE, GAN이 주로 ..

인공지능/개념 2024. 12. 14. 21:00

이전 Prev 1 Next 다음

목록영상 주석 설명 (1)

코딩딩딩

티스토리툴바