LLM#

Base Knowledge#

Specific Techniques#

Direct Preference Optimization (DPO)
Mixture of Experts (MoE)
- HF Blog: Mixture of Experts Explained

Specific Models#

Mixtral
- https://mistral.ai/news/mixtral-of-experts/
- HF Blog: https://huggingface.co/blog/mixtral
Argilla Notux
- based on Mixtral
- HF Model: https://huggingface.co/argilla/notux-8x7b-v1
- Dataset: https://huggingface.co/datasets/argilla/ultrafeedback-binarized-preferences-cleaned
- Code: argilla-io/notus