feat: complete hw4

2023-11-14 02:26:08 +08:00 · 2023-11-14 02:26:08 +08:00 · ab0f64d364
commit ab0f64d364
parent b3ddd2d11e
3 changed files with 251 additions and 0 deletions
--- a/hw4/hw4_10.py
+++ b/hw4/hw4_10.py
@ -0,0 +1,63 @@
+import numpy as np
+from liblinear.liblinearutil import *
+import math
+
+FILENAME = "hw4_train.dat"
+
+def read_data(filename):
+    with open(filename) as fp:
+        lines = fp.readlines()
+        x, y = [], []
+        for line in lines:
+            numbers = [ float(i) for i in line.split() ]
+            x.append(numbers[:-1])
+            y.append(int(numbers[-1]))
+    return x, y
+
+def format(features):
+    '''
+        change to LIBSVM format
+    '''
+    results = []
+    for feature in features:
+        result = {}
+        for index, value in enumerate(feature):
+            if value != 0.0:
+                result[index+1] = value
+        results.append(result)
+    return results
+    
+def error(gt, pred):
+    err = 0
+    for index in range(len(gt)):
+        err = (err+1) if gt[index]!=pred[index] else err
+    return err/len(gt)
+
+x, y = read_data(FILENAME)
+x = format(x)
+prob = problem(y, x)
+lambda_powers = [-6, -4, -2, 0, 2]
+
+results = []
+for lambda_power in lambda_powers:
+    lambda_value = 10 ** lambda_power
+    param_C = 1/(2*lambda_value) 
+    param = parameter('-s 0 -c {} -e 0.000001 -q'.format(param_C))
+    model = train(prob, param)
+    p_label, p_acc, p_val = predict(y, x, model)
+    err = error(y, p_label)
+    print("0/1 error: ", err)
+    print()
+    results.append({'lambda': lambda_power, 'error': err})
+
+ans, min_err = None, 1
+for i in results:
+    if i['error'] <= min_err:
+        min_err = i['error']
+        ans = i
+
+print("the largest lambda: {}, log_10(lambda*): {}".format(10**ans['lambda'], ans['lambda']))
+
+    
+
+
--- a/hw4/hw4_11.py
+++ b/hw4/hw4_11.py
@ -0,0 +1,83 @@
+import numpy as np
+import datetime
+import random
+from liblinear.liblinearutil import *
+import matplotlib.pyplot as plt
+
+FILENAME = "hw4_train.dat"
+
+def read_data(filename):
+    with open(filename) as fp:
+        lines = fp.readlines()
+        x, y = [], []
+        for line in lines:
+            numbers = [ float(i) for i in line.split() ]
+            x.append(numbers[:-1])
+            y.append(int(numbers[-1]))
+    return x, y
+
+def format(features):
+    '''
+        change to LIBSVM format
+    '''
+    results = []
+    for feature in features:
+        result = {}
+        for index, value in enumerate(feature):
+            if value != 0.0:
+                result[index+1] = value
+        results.append(result)
+    return results
+    
+def error(gt, pred):
+    err = 0
+    for index in range(len(gt)):
+        err = (err+1) if gt[index]!=pred[index] else err
+    return err/len(gt)
+
+def new_split(x, y):
+    random.seed(datetime.datetime.now().timestamp())
+    data = list(zip(x, y))
+    random.shuffle(data)
+    x, y = zip(*data)
+    train_x, val_x = x[:120], x[120:]
+    train_y, val_y = y[:120], y[120:]
+    return (train_x, train_y), (val_x, val_y)
+
+x, y = read_data(FILENAME)
+x = format(x)
+log_lambda = []
+for _ in range(128):
+    (train_x, train_y), (val_x, val_y) = new_split(x, y)
+    prob = problem(train_y, train_x)
+
+    lambda_powers = [-6, -4, -2, 0, 2]
+    results = []
+    for lambda_power in lambda_powers:
+        lambda_value = 10 ** lambda_power
+        param_C = 1/(2*lambda_value) 
+        param = parameter('-s 0 -c {} -e 0.000001 -q'.format(param_C))
+        model = train(prob, param)
+        p_label, p_acc, p_val = predict(val_y, val_x, model)
+        err = error(val_y, p_label)
+        print("0/1 error: ", err)
+        print()
+        results.append({'lambda': lambda_power, 'error': err})
+
+    ans, min_err = None, 1
+    for i in results:
+        if i['error'] <= min_err:
+            min_err = i['error']
+            ans = i
+
+    print("the largest lambda: {}, log_10(lambda*): {}".format(10**ans['lambda'], ans['lambda']))
+    print()
+    log_lambda.append(ans['lambda'])
+
+
+plt.hist(log_lambda)
+plt.savefig("hw4_11.png")
+
+        
+
+
--- a/hw4/hw4_12.py
+++ b/hw4/hw4_12.py
@ -0,0 +1,105 @@
+import numpy as np
+import datetime
+import random
+from liblinear.liblinearutil import *
+import matplotlib.pyplot as plt
+
+FILENAME = "hw4_train.dat"
+
+def read_data(filename):
+    with open(filename) as fp:
+        lines = fp.readlines()
+        x, y = [], []
+        for line in lines:
+            numbers = [ float(i) for i in line.split() ]
+            x.append(numbers[:-1])
+            y.append(int(numbers[-1]))
+    return x, y
+
+def format(features):
+    '''
+        change to LIBSVM format
+    '''
+    results = []
+    for feature in features:
+        result = {}
+        for index, value in enumerate(feature):
+            if value != 0.0:
+                result[index+1] = value
+        results.append(result)
+    return results
+    
+def error(gt, pred):
+    err = 0
+    for index in range(len(gt)):
+        err = (err+1) if gt[index]!=pred[index] else err
+    return err/len(gt)
+
+def new_split(x, y):
+    random.seed(datetime.datetime.now().timestamp())
+    data = list(zip(x, y))
+    random.shuffle(data)
+    x, y = zip(*data)
+
+    folds = []
+    head, tail = 0, 40
+    while head < len(x):
+        folds.append(
+            (x[head:tail], y[head:tail])
+        )
+        head += 40
+        tail += 40
+
+    return folds
+
+x, y = read_data(FILENAME)
+x = format(x)
+log_lambda = []
+lambda_powers = [-6, -4, -2, 0, 2]
+for _ in range(128):
+    folds = new_split(x, y)
+    errors = [ 0 for _ in range(len(lambda_powers)) ]
+    results = []
+    for val_index in range(len(folds)):
+        train_x, train_y = [], []
+        val_x, val_y = [], []
+
+        for i in range(len(folds)):
+            if i == val_index:
+                val_x = folds[i][0]
+                val_y = folds[i][1]
+            else:
+                train_x += folds[i][0]
+                train_y += folds[i][1]
+        
+        prob = problem(train_y, train_x)
+
+        for index, lambda_power in enumerate(lambda_powers):
+            lambda_value = 10 ** lambda_power
+            param_C = 1/(2*lambda_value) 
+            param = parameter('-s 0 -c {} -e 0.000001 -q'.format(param_C))
+            model = train(prob, param)
+            p_label, p_acc, p_val = predict(val_y, val_x, model)
+            err = error(val_y, p_label)
+            errors[index] += err
+
+    for index, lambda_power in enumerate(lambda_powers):
+        results.append({'lambda': lambda_power, 'error': errors[index]/len(folds)})
+
+    ans, min_err = None, 1
+    for i in results:
+        if i['error'] <= min_err:
+            min_err = i['error']
+            ans = i
+
+    print("the largest lambda: {}, log_10(lambda*): {}".format(10**ans['lambda'], ans['lambda']))
+    print()
+    log_lambda.append(ans['lambda'])
+
+
+plt.hist(log_lambda)
+plt.savefig("hw4_12.png")
+
+        
+
+