From 4926a993cf94d03aad4d24be2515bbe70c03c42a Mon Sep 17 00:00:00 2001
From: Carlos Lordelo <carlos.lordelo@epidemicsound.com>
Date: Sun, 6 Oct 2024 19:07:53 +0200
Subject: [PATCH 1/3] Add finetune as CLAPAudioConditioner argument

---
 stable_audio_tools/models/conditioners.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/stable_audio_tools/models/conditioners.py b/stable_audio_tools/models/conditioners.py
index e998ab10..a365a3a6 100644
--- a/stable_audio_tools/models/conditioners.py
+++ b/stable_audio_tools/models/conditioners.py
@@ -179,9 +179,11 @@ def __init__(self,
                  clap_ckpt_path,
                  audio_model_type="HTSAT-base", 
                  enable_fusion=True,
-                 project_out: bool = False):
+                 project_out: bool = False,
+                 finetune: bool = False):
         super().__init__(512, output_dim, project_out=project_out)
 
+        self.finetune = finetune
         device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 
         # Suppress logging from transformers

From 0f09c6e5dd341ebecd66711c9acaba30ae89e846 Mon Sep 17 00:00:00 2001
From: Carlos Lordelo <carlos.lordelo@epidemicsound.com>
Date: Wed, 27 May 2026 14:23:57 +0200
Subject: [PATCH 2/3] Fix rolled_metadata for contrastive disc during ARC
 training

---
 stable_audio_tools/training/arc.py | 13 ++++---------
 1 file changed, 4 insertions(+), 9 deletions(-)

diff --git a/stable_audio_tools/training/arc.py b/stable_audio_tools/training/arc.py
index e3e71fd3..e7ca5af1 100644
--- a/stable_audio_tools/training/arc.py
+++ b/stable_audio_tools/training/arc.py
@@ -1319,15 +1319,10 @@ def training_step(self, batch, batch_idx):
                 logit_center_penalty = 0
 
             if self.do_contrastive_disc:
-
-                rolled_metadata = []
-
-                for i in range(reals.shape[0]):
-                    rolled_keys = ["prompt"]
-                    rolled_metadata.append(metadata[i])
-                    for rolled_key in rolled_keys:
-                        rolled_metadata[i][rolled_key] = metadata[(i + 1) % reals.shape[0]][rolled_key]
-
+                
+                n = reals.shape[0]
+                rolled_metadata = [{**md, "prompt": metadata[(i + 1) % n]["prompt"]} for i, md in enumerate(metadata)]
+                
                 rolled_conditioning = self.discriminator.conditioner(rolled_metadata, self.device)
 
                 if self.inpainting_config is not None:

From 6baa57318e35fe6bebf65c0a66d0b1b509290266 Mon Sep 17 00:00:00 2001
From: Carlos Lordelo <carlos.lordelo@epidemicsound.com>
Date: Wed, 27 May 2026 14:40:16 +0200
Subject: [PATCH 3/3] Revert "Add finetune as CLAPAudioConditioner argument"

This reverts commit 4926a993cf94d03aad4d24be2515bbe70c03c42a.
---
 stable_audio_tools/models/conditioners.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/stable_audio_tools/models/conditioners.py b/stable_audio_tools/models/conditioners.py
index 8b92508e..c69b948d 100644
--- a/stable_audio_tools/models/conditioners.py
+++ b/stable_audio_tools/models/conditioners.py
@@ -365,11 +365,9 @@ def __init__(self,
                  clap_ckpt_path,
                  audio_model_type="HTSAT-base",
                  enable_fusion=True,
-                 project_out: bool = False,
-                 finetune: bool = False):
+                 project_out: bool = False):
         super().__init__(512, output_dim, project_out=project_out)
 
-        self.finetune = finetune
         device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 
         # Suppress logging from transformers