1. Egyszerűség és hatékonyság
A MusicGen egyetlen Nyelvi Modellből (NM) áll, ami azt jelenti, hogy többé nem szükséges több modell kaszkádolása, hierarchikus felépítés vagy felskálázás. Ez egyszerűsíti az AI alkalmazását és lehetővé teszi a hatékonyabb zene generálást.
2. Szöveg-zene generálás
A MusicGen kifejezetten a zene generálására lett tervezve. A zenei számok bonyolultabbak, és fontos az összefüggő minták generálása hosszú távon, ami kihívást jelent. A MusicGen ezt a kihívást teljesíti.
3. Dallamvezérelt generálás
A MusicGen tovább megy, és egy új, felügyelet nélküli dallamvezérelt generációs megközelítést mutat be a kromagramon alapulva. Ez lehetővé teszi a generált zenék még pontosabb irányítását.
4. Hosszú generálás
A MusicGen modellek 30 másodperces hangdarabokon képzik, de egyszerű ablakozási módszerrel hosszabb zenék generálása is lehetséges.
5. Kiemelkedő hangminőség
Az utolsó Multi-Band Diffusion EnCodec dekóder segítségével a MusicGen hangminősége tovább javítható, így még kevesebb hanghibát mutat.