목록Transformer (4)
코딩딩딩

1. 언어 명령 기반 영상 생성 트랜스포머 영상 생성 트랜스포머는 언어와 영상 데이터를 결합해 명령에 따라 영상을 생성하는 딥러닝 모델이다. 실제 환경이나 3D 시뮬레이션 등 다양한 상황에서 사용될 수 있다. • 언어 처리 부분: Language Encoder Transformer 기반 언어 모델을 사용해 텍스트 명령을 임베딩 벡터로 변환한다. • 시각 정보 처리 부분: Visual Encoder CNN과 Transformer를 결합해 입력된 영상 데이터를 feature로 변환한다. • 트랜스포머 인코더 Language Encoder와 Visual Encoder에서 나온 feature를 결합하여 트랜스포머 인코더 레이어를 통과시켜 융합된 Language-Visual feature를 추출한다...

1. 인코더 - 디코더 인코더는 입력 데이터를 임베딩으로 변환하여 고차원적 표현을 생성하고, 디코더는 이를 기반으로 문맥에 맞는 출력을 생성한다. • 영상 인코더 입력 영상에서 필수적인 시각적 특징을 추출하여 임베딩 또는 잠재 표현이라 불리는 고정된 크기의 벡터로 변환한다. CNN, ViT가 주로 사용된다. • 언어 인코더 텍스트를 숫자 표현으로 변환하고 문맥 정보를 캡처하여 고정된 크기의 임베딩 벡터를 생성한다. 과거에는 LSTM, GRU, RNN이 사용되었으나, 현재는 Self-Attention 기반 BERT, Transformers와 같은 모델이 주로 사용된다. • 영상 디코더 고정된 크기의 임베딩 벡터를 입력으로 받아 전체 해상도 이미지를 생성한다. 과거에는 CNN, VAE, GAN이 주로 ..

1. Word embedding단어를 고차원 벡터 공간에서 밀도가 높은 벡터로 표현하는 기술이다. 단어 간의 의미 관계를 포착하여 의미적으로 유사한 단어를 유사한 벡터로 표현한다.- 단어 표현 방법 종류• One-hot encoding 단어와 같은 범주형 데이터를 숫자로 표현하는 기법. 각 단어는 고차원의 벡터 공간에서 하나의 1과 나머지 0으로 표현된다. 단점으로는 의미론적 관계가 부족하고 계산이 비효율적이다. • Bag-of-Words, BoW 텍스트에서 단어의 빈도를 계산하여 문서나 문장을 벡터로 변환한다. 어순, 문맥은 무시하며 단어 간의 의미 관계를 포착하지 못한다. • TF-IDF, Term Frequency - Inverse Document Frequency 문서에 자주 등장하지만 말뭉치에서..

1. 영상 패치 임베딩 - Image patch embedding이미지를 작은 패치 단위로 분할하는 과정이다. 지역적 특징 잘 포착할 수 있고, 큰 이미지를 다루는데에도 효율적이다.- 임베딩 패치의 단계[1] 단어처럼 이미지를 패치 단위로 나눈다. [2] 분활된 이미지를 N차원 공간에 매핑한다. 패치 평탄화: 각 패치를 1차원 벡터로 변환한다.2. Vision Transformer - ViTVision Transformer는 Transformer 아키텍처를 이미지 분류에 적용한 모델이다. 이미지 데이터를 패치 단위로 처리하며, 자연어 처리에서 성공적으로 활용된 Transformer의 강점을 비전 분야로 확장한 방식이다. CNN과 함께 사용되거나, 독립적으로 더 높은 성능을 발휘하는 경우도 있다.-..