Topic 48

Core Architectures: Encoder, Decoder, and Transformers

Transformer نے modern language models کو تیز، flexible اور context-aware بنایا۔ اسی سے BERT، GPT، Llama، T5 اور BART جیسے models کی families نکلیں۔

Transformer architecture

The Transformer Blueprint

Transformer text کو tokens میں دیکھتا ہے اور attention کے ذریعے سمجھتا ہے کہ کون سا لفظ کس دوسرے لفظ سے متعلق ہے۔ اس کا بڑا فائدہ یہ ہے کہ model پورے context کو ایک ساتھ دیکھ سکتا ہے، اس لیے لمبے جملوں اور complex instructions کو بہتر handle کرتا ہے۔

Tokens
Embeddings
Attention
Output

Attention کو آسان لفظوں میں یوں سمجھیں: model ہر token سے پوچھتا ہے کہ جواب بنانے کے لیے باقی tokens میں کس پر زیادہ دھیان دینا چاہیے۔

Encoder-only Models (BERT)

Encoder input کو سمجھنے کے لیے بہت مضبوط ہوتا ہے۔ BERT جیسے Encoder-only models classification، search، sentiment analysis، named entity recognition اور document understanding میں useful رہے ہیں۔

یہ models عام طور پر text کا مطلب، category یا relation نکالنے میں اچھے ہوتے ہیں، مگر خود لمبا نیا text generate کرنے کے لیے بنیادی طور پر نہیں بنائے گئے۔

Decoder-only Models (GPT, Llama)

Decoder-only models اگلا token predict کرتے ہوئے جواب بناتے ہیں۔ GPT اور Llama اسی family کی مثالیں ہیں۔ یہ writing، coding، chat، reasoning، planning اور instruction following میں بہت استعمال ہوتے ہیں۔

یہ models conversation میں خاص طور پر useful ہیں کیونکہ وہ prompt کے context کو دیکھ کر اگلا مناسب حصہ generate کرتے جاتے ہیں۔

Encoder-decoder Models (T5, BART)

Encoder-decoder models میں Encoder input کو سمجھتا ہے اور Decoder output بناتا ہے۔ T5 اور BART اس style کی مثالیں ہیں۔ Translation، summarization اور text transformation جیسے کاموں میں یہ structure بہت فطری ہے۔

Encoder-only

سمجھنا، classify کرنا، search میں مدد

Decoder-only

نیا text بنانا، chat، coding، planning

Encoder-decoder

input کو output میں بدلنا، translation، summary

اہم نکات

  • Transformer attention کے ذریعے context سمجھتا ہے۔
  • BERT جیسے Encoder-only models understanding tasks میں اچھے ہیں۔
  • GPT اور Llama جیسے Decoder-only models generation میں مضبوط ہیں۔
  • T5 اور BART input کو نئے output میں بدلنے کے لیے useful ہیں۔

Quick Quiz

سوال 1: Attention کا آسان مطلب کیا ہے؟

سوال 2: GPT اور Llama کس family کی مثالیں ہیں؟