Core Architectures: Encoder, Decoder, and Transformers
Transformer نے modern language models کو تیز، flexible اور context-aware بنایا۔ اسی سے BERT، GPT، Llama، T5 اور BART جیسے models کی families نکلیں۔
The Transformer Blueprint
Transformer text کو tokens میں دیکھتا ہے اور attention کے ذریعے سمجھتا ہے کہ کون سا لفظ کس دوسرے لفظ سے متعلق ہے۔ اس کا بڑا فائدہ یہ ہے کہ model پورے context کو ایک ساتھ دیکھ سکتا ہے، اس لیے لمبے جملوں اور complex instructions کو بہتر handle کرتا ہے۔
Attention کو آسان لفظوں میں یوں سمجھیں: model ہر token سے پوچھتا ہے کہ جواب بنانے کے لیے باقی tokens میں کس پر زیادہ دھیان دینا چاہیے۔
Encoder-only Models (BERT)
Encoder input کو سمجھنے کے لیے بہت مضبوط ہوتا ہے۔ BERT جیسے Encoder-only models classification، search، sentiment analysis، named entity recognition اور document understanding میں useful رہے ہیں۔
یہ models عام طور پر text کا مطلب، category یا relation نکالنے میں اچھے ہوتے ہیں، مگر خود لمبا نیا text generate کرنے کے لیے بنیادی طور پر نہیں بنائے گئے۔
Decoder-only Models (GPT, Llama)
Decoder-only models اگلا token predict کرتے ہوئے جواب بناتے ہیں۔ GPT اور Llama اسی family کی مثالیں ہیں۔ یہ writing، coding، chat، reasoning، planning اور instruction following میں بہت استعمال ہوتے ہیں۔
یہ models conversation میں خاص طور پر useful ہیں کیونکہ وہ prompt کے context کو دیکھ کر اگلا مناسب حصہ generate کرتے جاتے ہیں۔
Encoder-decoder Models (T5, BART)
Encoder-decoder models میں Encoder input کو سمجھتا ہے اور Decoder output بناتا ہے۔ T5 اور BART اس style کی مثالیں ہیں۔ Translation، summarization اور text transformation جیسے کاموں میں یہ structure بہت فطری ہے۔
سمجھنا، classify کرنا، search میں مدد
نیا text بنانا، chat، coding، planning
input کو output میں بدلنا، translation، summary
اہم نکات
- Transformer attention کے ذریعے context سمجھتا ہے۔
- BERT جیسے Encoder-only models understanding tasks میں اچھے ہیں۔
- GPT اور Llama جیسے Decoder-only models generation میں مضبوط ہیں۔
- T5 اور BART input کو نئے output میں بدلنے کے لیے useful ہیں۔