fix: conflict

fix: add feature transform
2023-11-15 20:46:06 +08:00 · 2023-11-15 20:44:06 +08:00
3 changed files with 102 additions and 25 deletions
--- a/hw4/hw4_10.py
+++ b/hw4/hw4_10.py
@ -33,32 +33,57 @@ def error(gt, pred):
        err = (err+1) if gt[index]!=pred[index] else err
    return err/len(gt)

-if __name__ == '__main__':
-    x, y = read_data(FILENAME)
-    x = form(x)
-    prob = problem(y, x)
-    lambda_powers = [-6, -4, -2, 0, 2]
+def transform(features):
+    output_features = []
+    for index, feature in enumerate(features):
+        output_features.append([ 0 for _ in range(84) ])
+        output_features[index][0] = 1
        
-    results = []
-    for lambda_power in lambda_powers:
-        lambda_value = 10 ** lambda_power
-        param_C = 1/(2*lambda_value) 
-        param = parameter('-s 0 -c {} -e 0.000001 -q'.format(param_C))
-        model = train(prob, param)
-        p_label, p_acc, p_val = predict(y, x, model)
-        err = error(y, p_label)
-        print("0/1 error: ", err)
-        print()
-        results.append({'lambda': lambda_power, 'error': err})
+        d_index = 1   
+        # 1-order
+        for i in feature:
+            output_features[index][d_index] = i
+            d_index += 1
    
-    ans, min_err = None, 1
-    for i in results:
-        print(i['error'])
-        if i['error'] <= min_err:
-            min_err = i['error']
-            ans = i
+        # 2-orde
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                output_features[index][d_index] = feature[i]*feature[j]
+                d_index += 1
+        # 3-order
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                for k in range(j, len(feature)):
+                    output_features[index][d_index] = i*j*k
+                    d_index += 1
+    return output_features

-    print("the largest lambda: {}, log_10(lambda*): {}".format(10**ans['lambda'], ans['lambda']))
+x, y = read_data(FILENAME)
+x = transform(x)
+x = form(x)
+prob = problem(y, x)
+lambda_powers = [-6, -4, -2, 0, 2]
+
+results = []
+for lambda_power in lambda_powers:
+    lambda_value = 10 ** lambda_power
+    param_C = 1/(2*lambda_value) 
+    param = parameter('-s 0 -c {} -e 0.000001 -q'.format(param_C))
+    model = train(prob, param)
+    p_label, p_acc, p_val = predict(y, x, model)
+    err = error(y, p_label)
+    print("0/1 error: ", err)
+    print()
+    results.append({'lambda': lambda_power, 'error': err})
+
+ans, min_err = None, 1
+for i in results:
+    print(i['error'])
+    if i['error'] <= min_err:
+        min_err = i['error']
+        ans = i
+
+print("the largest lambda: {}, log_10(lambda*): {}".format(10**ans['lambda'], ans['lambda']))

        

--- a/hw4/hw4_11.py
+++ b/hw4/hw4_11.py
@ -36,7 +36,6 @@ def error(gt, pred):
    return err/len(gt)

 def new_split(x, y):
-    random.seed(datetime.datetime.now().timestamp())
    data = list(zip(x, y))
    random.shuffle(data)
    x, y = zip(*data)
@ -44,10 +43,37 @@ def new_split(x, y):
    train_y, val_y = y[:120], y[120:]
    return (train_x, train_y), (val_x, val_y)

+def transform(features):
+    output_features = []
+    for index, feature in enumerate(features):
+        output_features.append([ 0 for _ in range(84) ])
+        output_features[index][0] = 1
+        
+        d_index = 1   
+        # 1-order
+        for i in feature:
+            output_features[index][d_index] = i
+            d_index += 1
+    
+        # 2-orde
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                output_features[index][d_index] = feature[i]*feature[j]
+                d_index += 1
+        # 3-order
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                for k in range(j, len(feature)):
+                    output_features[index][d_index] = i*j*k
+                    d_index += 1
+    return output_features
+
 x, y = read_data(FILENAME)
+x = transform(x)
 x = format(x)
 log_lambda = []
-for _ in range(128):
+for index in range(128):
+    random.seed(datetime.datetime.now().timestamp()+index)
    (train_x, train_y), (val_x, val_y) = new_split(x, y)
    prob = problem(train_y, train_x)

--- a/hw4/hw4_12.py
+++ b/hw4/hw4_12.py
@ -52,7 +52,33 @@ def new_split(x, y):

    return folds

+def transform(features):
+    output_features = []
+    for index, feature in enumerate(features):
+        output_features.append([ 0 for _ in range(84) ])
+        output_features[index][0] = 1
+        
+        d_index = 1   
+        # 1-order
+        for i in feature:
+            output_features[index][d_index] = i
+            d_index += 1
+    
+        # 2-orde
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                output_features[index][d_index] = feature[i]*feature[j]
+                d_index += 1
+        # 3-order
+        for i in range(len(feature)):
+            for j in range(i, len(feature)):
+                for k in range(j, len(feature)):
+                    output_features[index][d_index] = i*j*k
+                    d_index += 1
+    return output_features
+
 x, y = read_data(FILENAME)
+x = transform(x)
 x = format(x)
 log_lambda = []
 lambda_powers = [-6, -4, -2, 0, 2]
Author	SHA1	Message	Date
snsd0805	2e6f716245	fix: conflict	2023-11-15 20:46:06 +08:00
snsd0805	110631594b	fix: add feature transform	2023-11-15 20:44:06 +08:00