5 years ago · 06e8f098a6
--- a/README.md
+++ b/README.md
@@ -27,11 +27,11 @@ The baseline experiment trains the model in the conventional way.
 
															 * To run the baseline experiment with MNIST on MLP using CPU:
														
 
															 ```
														
 
															-python baseline_main.py --model=mlp --dataset=mnist --gpu=None --epochs=10
														
 
															+python baseline_main.py --model=mlp --dataset=mnist --epochs=10
														
 
															 ```
														
 
															 * Or to run it on GPU (eg: if gpu:0 is available):
														
 
															 ```
														
 
															-python baseline_main.py --model=mlp --dataset=mnist --gpu=0 --epochs=10
														
 
															+python baseline_main.py --model=mlp --dataset=mnist --gpu=1 --epochs=10
														
 
															 ```
														
 
															 -----
														
@@ -39,11 +39,11 @@ Federated experiment involves training a global model using many local models.
 
															 * To run the federated experiment with CIFAR on CNN (IID):
														
 
															 ```
														
 
															-python federated_main.py --model=cnn --dataset=cifar --gpu=0 --iid=1 --epochs=10
														
 
															+python federated_main.py --local_ep=1 --local_bs=10 --frac=0.1 --model=cnn --dataset=cifar --iid=1 --test_acc=99 --gpu=1
														
 
															 ```
														
 
															 * To run the same experiment under non-IID condition:
														
 
															 ```
														
 
															-python federated_main.py --model=cnn --dataset=cifar --gpu=0 --iid=0 --epochs=10
														
 
															+python federated_main.py --local_ep=1 --local_bs=10 --frac=0.1 --model=cnn --dataset=cifar --iid=0 --test_acc=99 --gpu=1
														
 
															 ```
														
 
															 -----
														
@@ -51,11 +51,11 @@ Hierarchical Federated experiments involve training a global model using differe
 
															 * To run the hierarchical federated experiment with MNIST on MLP (IID):
														
 
															 ```
														
 
															-python federated-hierarchical_main.py --model=mlp --dataset=mnist --iid=1 --epochs=10 --local_ep=3
														
 
															+python federated-hierarchical_main.py --local_ep=1 --local_bs=10 --frac=0.1 --Cepochs=5 --model=mlp --dataset=mnist --iid=1 --num_cluster=2 --test_acc=97  --gpu=1
														
 
															 ```
														
 
															 * To run the same experiment under non-IID condition:
														
 
															 ```
														
 
															-python federated-hierarchical_main.py --model=mlp --dataset=mnist --iid=0 --epochs=10 --local_ep=3
														
 
															+python federated-hierarchical_main.py --local_ep=1 --local_bs=10 --frac=0.1 --Cepochs=5 --model=mlp --dataset=mnist --iid=0 --num_cluster=2 --test_acc=97  --gpu=1
														
 
															 ```
														
 
															 You can change the default values of other parameters to simulate different conditions. Refer to the options section.
														
@@ -78,6 +78,8 @@ The default values for various paramters parsed to the experiment are given in `
 
															 * ```--local_ep:``` Number of local training epochs in each user. Default is 10.
														
 
															 * ```--local_bs:``` Batch size of local updates in each user. Default is 10.
														
 
															 * ```--unequal:```  Used in non-iid setting. Option to split the data amongst users equally or unequally. Default set to 0 for equal splits. Set to 1 for unequal splits.
														
 
															+* ```--num_clusters:```  Number of clusters in the hierarchy.
														
 
															+* ```--Cepochs:```  Number of rounds of training in each cluster.
														
 
															 ## Results on MNIST
														
 
															 #### Baseline Experiment:
														
--- a/save/objects/FL1_mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
+++ b/save/objects/FL1_mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
--- a/save/objects/FL2_mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
+++ b/save/objects/FL2_mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
--- a/save/objects/mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
+++ b/save/objects/mnist_mlp_5_C[0.1]_iid[1]_E[1]_B[10].pkl
--- a/src/__pycache__/options.cpython-37.pyc
+++ b/src/__pycache__/options.cpython-37.pyc
--- a/src/federated-hierarchical_main.py
+++ b/src/federated-hierarchical_main.py
@@ -36,7 +36,7 @@ def build_model(args, train_dataset):
 
															         len_in = 1
														
 
															         for x in img_size:
														
 
															             len_in *= x
														
 
															-            global_model = MLP(dim_in=len_in, dim_hidden=200,
														
 
															+            global_model = MLP(dim_in=len_in, dim_hidden=64,
														
 
															                                dim_out=args.num_classes)
														
 
															     else:
														
 
															         exit('Error: unrecognized model')
														
@@ -67,7 +67,7 @@ def fl_train(args, train_dataset, cluster_global_model, cluster, usergrp, epochs
 
															             cluster_w, cluster_loss = cluster_local_model.update_weights(model=copy.deepcopy(cluster_global_model), global_round=epoch)
														
 
															             cluster_local_weights.append(copy.deepcopy(cluster_w))
														
 
															             cluster_local_losses.append(copy.deepcopy(cluster_loss))
														
 
															-            print('| Global Round : {} | User : {} | \tLoss: {:.6f}'.format(epoch, idx, cluster_loss))
														
 
															+            # print('| Global Round : {} | User : {} | \tLoss: {:.6f}'.format(epoch, idx, cluster_loss))
														
 
															         # averaging global weights
														
 
															         cluster_global_weights = average_weights(cluster_local_weights)
														
@@ -113,16 +113,23 @@ if __name__ == '__main__':
 
															     B1 = np.arange(cluster_size, cluster_size+cluster_size, dtype=int)
														
 
															     user_groupsB = {k:user_groups[k] for k in B1 if k in user_groups}
														
 
															     print("Size of cluster 2: ", len(user_groupsB))
														
 
															+    # Cluster 3
														
 
															+    C1 = np.arange(2*cluster_size, 3*cluster_size, dtype=int)
														
 
															+    user_groupsC = {k:user_groups[k] for k in C1 if k in user_groups}
														
 
															+    print("Size of cluster 3: ", len(user_groupsC))
														
 
															+    # Cluster 4
														
 
															+    D1 = np.arange(3*cluster_size, 4*cluster_size, dtype=int)
														
 
															+    user_groupsD = {k:user_groups[k] for k in D1 if k in user_groups}
														
 
															+    print("Size of cluster 4: ", len(user_groupsD))
														
 
															     # MODEL PARAM SUMMARY
														
 
															     global_model = build_model(args, train_dataset)
														
 
															     pytorch_total_params = sum(p.numel() for p in global_model.parameters())
														
 
															-    print(pytorch_total_params)
														
 
															+    print("Model total number of parameters: ", pytorch_total_params)
														
 
															-    from torchsummary import summary
														
 
															-
														
 
															-    summary(global_model, (1, 28, 28))
														
 
															-    global_model.parameters()
														
 
															+    # from torchsummary import summary
														
 
															+    # summary(global_model, (1, 28, 28))
														
 
															+    # global_model.parameters()
														
 
															     # Set the model to train and send it to device.
														
 
															     global_model.to(device)
														
@@ -134,18 +141,31 @@ if __name__ == '__main__':
 
															     # ======= Set the cluster models to train and send it to device. =======
														
 
															+    # Cluster A
														
 
															     cluster_modelA = build_model(args, train_dataset)
														
 
															     cluster_modelA.to(device)
														
 
															     cluster_modelA.train()
														
 
															     # copy weights
														
 
															     cluster_modelA_weights = cluster_modelA.state_dict()
														
 
															-
														
 
															-    # Set the cluster models to train and send it to device.
														
 
															+    # Cluster B
														
 
															     cluster_modelB = build_model(args, train_dataset)
														
 
															     cluster_modelB.to(device)
														
 
															     cluster_modelB.train()
														
 
															     # copy weights
														
 
															-    cluster_modelB_weights = cluster_modelA.state_dict()
														
 
															+    cluster_modelB_weights = cluster_modelB.state_dict()
														
 
															+    # Cluster C
														
 
															+    cluster_modelC = build_model(args, train_dataset)
														
 
															+    cluster_modelC.to(device)
														
 
															+    cluster_modelC.train()
														
 
															+    # copy weights
														
 
															+    cluster_modelC_weights = cluster_modelC.state_dict()
														
 
															+    # Cluster D
														
 
															+    cluster_modelD = build_model(args, train_dataset)
														
 
															+    cluster_modelD.to(device)
														
 
															+    cluster_modelD.train()
														
 
															+    # copy weights
														
 
															+    cluster_modelD_weights = cluster_modelD.state_dict()
														
 
															+
														
 
															     train_loss, train_accuracy = [], []
														
 
															     val_acc_list, net_list = [], []
														
@@ -163,14 +183,21 @@ if __name__ == '__main__':
 
															         global_model.train()
														
 
															         # Cluster A
														
 
															-        A_weights, A_losses = fl_train(args, train_dataset, cluster_modelA, A1, user_groupsA, args.epochs)
														
 
															+        A_weights, A_losses = fl_train(args, train_dataset, cluster_modelA, A1, user_groupsA, args.Cepochs)
														
 
															         local_weights.append(copy.deepcopy(A_weights))
														
 
															-        local_losses.append(copy.deepcopy(A_losses))
														
 
															-        
														
 
															+        local_losses.append(copy.deepcopy(A_losses))        
														
 
															         # Cluster B
														
 
															-        B_weights, B_losses = fl_train(args, train_dataset, cluster_modelB, B1, user_groupsB, args.epochs)
														
 
															+        B_weights, B_losses = fl_train(args, train_dataset, cluster_modelB, B1, user_groupsB, args.Cepochs)
														
 
															         local_weights.append(copy.deepcopy(B_weights))
														
 
															         local_losses.append(copy.deepcopy(B_losses))
														
 
															+        # Cluster C
														
 
															+        C_weights, C_losses = fl_train(args, train_dataset, cluster_modelC, C1, user_groupsC, args.Cepochs)
														
 
															+        local_weights.append(copy.deepcopy(C_weights))
														
 
															+        local_losses.append(copy.deepcopy(C_losses))        
														
 
															+        # Cluster D
														
 
															+        D_weights, D_losses = fl_train(args, train_dataset, cluster_modelD, D1, user_groupsD, args.Cepochs)
														
 
															+        local_weights.append(copy.deepcopy(D_weights))
														
 
															+        local_losses.append(copy.deepcopy(D_losses))
														
 
															         # averaging global weights
														
--- a/src/federated_main.py
+++ b/src/federated_main.py
@@ -61,6 +61,11 @@ if __name__ == '__main__':
 
															     global_model.to(device)
														
 
															     global_model.train()
														
 
															     print(global_model)
														
 
															+    
														
 
															+    # MODEL PARAM SUMMARY
														
 
															+    pytorch_total_params = sum(p.numel() for p in global_model.parameters())
														
 
															+    print("Model total number of parameters: ", pytorch_total_params)
														
 
															+    # print(global_model.parameters())
														
 
															     # copy weights
														
 
															     global_weights = global_model.state_dict()
														
@@ -69,10 +74,12 @@ if __name__ == '__main__':
 
															     train_loss, train_accuracy = [], []
														
 
															     val_acc_list, net_list = [], []
														
 
															     cv_loss, cv_acc = [], []
														
 
															-    print_every = 2
														
 
															+    print_every = 1
														
 
															     val_loss_pre, counter = 0, 0
														
 
															+    testacc_check, epoch = 0, 0
														
 
															-    for epoch in tqdm(range(args.epochs)):  # global training epochs
														
 
															+    # for epoch in tqdm(range(args.epochs)):  # global training epochs
														
 
															+    while testacc_check < args.test_acc:
														
 
															         local_weights, local_losses = [], [] # init empty local weights and local losses
														
 
															         print(f'\n | Global Training Round : {epoch+1} |\n') # starting with | Global Training Round : 1 |
														
@@ -110,7 +117,7 @@ if __name__ == '__main__':
 
															         for c in range(args.num_users): # 0 to 99
														
 
															             local_model = LocalUpdate(args=args, dataset=train_dataset,
														
 
															-                                      # idxs=user_groups[idx], logger=logger)
														
 
															+                                      idxs=user_groups[idx], logger=logger)
														
 
															             # Fix error idxs=user_groups[idx] to idxs=user_groups[c]                                      
														
 
															             local_model = LocalUpdate(args=args, dataset=train_dataset,
														
 
															                                       idxs=user_groups[idx], logger=logger)
														
@@ -119,6 +126,10 @@ if __name__ == '__main__':
 
															             list_loss.append(loss)
														
 
															         train_accuracy.append(sum(list_acc)/len(list_acc)) # Performance measure
														
 
															+        # Add
														
 
															+        testacc_check = 100*train_accuracy[-1]
														
 
															+        epoch = epoch + 1
														
 
															+
														
 
															         # print global training loss after every 'i' rounds
														
 
															         if (epoch+1) % print_every == 0: # If print_every=2, => print every 2 rounds
														
 
															             print(f' \nAvg Training Stats after {epoch+1} global rounds:')
														
@@ -128,7 +139,7 @@ if __name__ == '__main__':
 
															     # Test inference after completion of training
														
 
															     test_acc, test_loss = test_inference(args, global_model, test_dataset)
														
 
															-    print(f' \n Results after {args.epochs} global rounds of training:')
														
 
															+    print(f' \n Results after {epoch} global rounds of training:')
														
 
															     print("|---- Avg Train Accuracy: {:.2f}%".format(100*train_accuracy[-1]))
														
 
															     print("|---- Test Accuracy: {:.2f}%".format(100*test_acc))
														
--- a/src/options.py
+++ b/src/options.py
@@ -15,7 +15,7 @@ def args_parser():
 
															                         help="number of users: K")
														
 
															     parser.add_argument('--frac', type=float, default=0.1,
														
 
															                         help='the fraction of clients: C')
														
 
															-    parser.add_argument('--local_ep', type=int, default=10,
														
 
															+    parser.add_argument('--local_ep', type=int, default=1,
														
 
															                         help="the number of local epochs: E")
														
 
															     parser.add_argument('--local_bs', type=int, default=10,
														
 
															                         help="local batch size: B")
														
@@ -47,7 +47,7 @@ def args_parser():
 
															                         of dataset")
														
 
															     parser.add_argument('--num_classes', type=int, default=10, help="number \
														
 
															                         of classes")
														
 
															-    parser.add_argument('--gpu', default=None, help="To use cuda, set \
														
 
															+    parser.add_argument('--gpu', type=int, default=0, help="To use cuda, set \
														
 
															                         to a specific GPU ID. Default set to use CPU.")
														
 
															     parser.add_argument('--optimizer', type=str, default='sgd', help="type \
														
 
															                         of optimizer")
														
@@ -64,6 +64,7 @@ def args_parser():
 
															     # Add arguments
														
 
															     parser.add_argument('--num_clusters', type=int, default=2, help='the number of clusters')
														
 
															     parser.add_argument('--test_acc', type=int, default=95, help='target test accuracy')
														
 
															+    parser.add_argument('--Cepochs', type=int, default=5,help="number of rounds of training in each cluster")
														
 
															     args = parser.parse_args()
														
 
															     return args