7 conseils pour développer un code de science des données lisible


Image par svstudioart sur Freepik

La capacité d’écrire du code lisible est quelque chose que les développeurs appellent une forme d’art. Bien que je sois partiellement d’accord avec cette affirmation, écrire du code, en particulier être lisible, est une compétence qui peut être développée.

La seule façon d’améliorer la lisibilité de votre code est de vous entraîner à écrire un meilleur code. C’est pourquoi je recommande de lire le code écrit par d’autres développeurs connus pour écrire du code de haute qualité.

En général, un code lisible est un résultat important et devient plus critique à mesure que votre code devient plus complexe. En science des données, en particulier, l’écriture de code lisible est extrêmement importante car les applications de science des données peuvent être assez difficiles à comprendre, de sorte que la complexité supplémentaire ajoutée par un code mal écrit n’est pas préférée.

Je suppose que vous êtes d’accord sur l’importance d’écrire du code lisible. Encore une fois, comment puis-je rendre mon code plus lisible?

Dans cet article, nous allons passer en revue quelques étapes que vous pouvez suivre pour produire un code lisible et de haute qualité.

Avant d’ouvrir votre éditeur et de commencer à résoudre le problème, essayez de planifier la structure de votre code. Créez une structure aussi détaillée que possible de vos variables, fonctions, classes et modules et de la manière dont ils s’associent pour résoudre le problème.

Cela vous fera gagner beaucoup de temps plus tard lors de l’implémentation, de l’extension et du déploiement du code. Si vous envisagez d’ajouter cette structure à votre documentation de code ou d’ouvrir votre code, je vous recommande de le soumettre à GitHub.

Je sais que nous sommes tous tentés d’appeler nos variables X, Y et Z. Mais ensuite, lorsque nous lisons notre code des mois plus tard, en essayant de comprendre exactement ce qui est stocké dans la variable X, nous devenons confus ! Donner à vos variables des noms descriptifs aidera non seulement les étrangers à lire votre code, mais cela vous aidera également à lire le code à l’avenir.

Lorsque vous nommez vos variables, visez des noms précis et non courts. Par exemple, si vous calculez la moyenne d’une liste de valeurs, ne nommez pas votre variable ave ou av ; parfois, comme average_height ou average_time. De nombreux éditeurs de code proposent aujourd’hui la saisie semi-automatique. L’utilisation de noms plus longs ne ralentira donc pas votre processus de codage.

De plus, si votre code implémente un algorithme présenté dans un article ou un livre spécifique, conservez les noms de variables liés à cette source. N’oubliez pas d’inclure cette source en haut de vos fichiers de code.

Les fonctions peuvent être un excellent outil pour avoir un code organisé et concis. Autrement dit, s’il est utilisé correctement. Utilisez des fonctions pour des tâches pouvant être regroupées dans une fonction, telles que l’application d’une opération sur différents points de données ou l’exécution d’une étape d’algorithme. Lorsque vous nommez vos fonctions, utilisez la même logique que celle que nous avons couverte pour nommer vos variables.

Rassemblez les fonctions avec les fonctions associées dans un fichier de code et faites-en un module si possible. Cela rend la fonctionnalité facile à trouver, à étendre et à utiliser.

Essayez d’être clair sur le type spécifique d’attributs de fonction et rendez vos fonctions sûres et extensibles.

Documenter votre code, qu’il s’agisse d’une documentation complète ou en ligne (docstrings), est une étape importante. Les lignes de document sont des lignes au début d’un fichier de code, après la définition de la fonction/classe, qui indiquent au lecteur le but du code/de la fonction ou de la classe.

Les lignes de documentation sont censées être des indices rapides sur ce qu’est votre code et comment il fonctionne. Par exemple, lorsqu’il est utilisé au début d’une fonction (sous le titre de la fonction), il doit inclure les types d’attributs attendus et leur rôle dans la fonction, la sortie de la fonction et une phrase ou deux sur ce à quoi cette sortie devrait ressembler. calculé.

Dans le cas d’une classe, la docstring doit contenir les attributs et les méthodes de la classe et comment ils peuvent être utilisés.

Si la fonctionnalité dont vous avez besoin est déjà implémentée par un package pris en charge ou un développeur tiers, utilisez-la au lieu de l’implémenter partout. Lorsque vous utilisez un package, assurez-vous de connaître toutes les fonctionnalités qu’il inclut afin de gagner du temps en mettant en œuvre quelque chose que vous pouvez utiliser.

Quelques scénarios où je recommande d’implémenter une fonctionnalité vous-même sont lorsque vous débutez dans la programmation et que vous essayez d’apprendre comment les choses fonctionnent, ou lorsque vous pouvez mieux implémenter une fonctionnalité avec moins de complexité. Sinon, il est plus simple pour vous et les autres d’utiliser votre code pour utiliser ce qui est déjà implémenté.

Lorsque vous essayez de mettre en œuvre une idée présentée dans un article, un livre ou un algorithme, visez des étapes claires plutôt que d’essayer de regrouper plusieurs étapes pour obtenir un code plus court.

Oui, un code plus court peut montrer à quel point vous utilisez bien les idiomes du langage de programmation. Encore une fois, cela peut rendre votre code inutilement complexe. Complexe à lire, tester, déboguer et étendre. L’ajout de cette couche supplémentaire de complexité en regroupant plusieurs étapes conduira à un code très rigide, en particulier lorsque l’algorithme que vous implémentez est intrinsèquement complexe.

La cohérence est excellente pour la lisibilité du code. Lors de la planification de la structure de votre code, décidez du style que vous utiliserez dans votre code. Cela inclut la définition d’un système pour nommer vos variables, fonctions et classes. Apprenez à utiliser les commentaires, à résoudre les différentes étapes mathématiques de cet algorithme, à modulariser votre code et à utiliser les packages disponibles.

Lorsque vous avez un style et un modèle cohérents, votre code sera plus rapide à suivre et à comprendre.

L’un des aspects inévitables du métier de data scientist est d’utiliser du code écrit par quelqu’un d’autre. Bien que lire et comprendre le code écrit par d’autres personnes soit toujours une tâche fastidieuse, vous pouvez suivre quelques étapes pour rendre votre code plus facile à suivre et à utiliser pour ceux qui souhaitent l’utiliser.

Bien que les conseils abordés dans cet article puissent être utilisés par toute personne qui écrit du code, pas seulement les data scientists, à mon avis, il est très important de produire un code lisible pour les data scientists afin de surmonter certains des défis qui existent en raison des mathématiques. derrière la plupart des algorithmes de science des données.

Donc, si vous voulez commencer à écrire un code meilleur et plus lisible, cet article serait un bon point de départ. N’oubliez pas qu’écrire un meilleur code est une compétence ; Comme toute autre compétence, elle s’améliore avec la pratique.

Sarah Metwally candidat en sciences. candidat à l’Université Keio recherche des moyens de tester et de déboguer les circuits quantiques. Je suis stagiaire en recherche chez IBM et un défenseur de Giskit qui aide à construire un avenir plus quantique. Je suis également un écrivain qui écrit des articles sur la programmation, la science des données et des sujets techniques pour Medium, Embedded, She Can Code et KDN. Je suis également co-animatrice du chapitre international de Women Who Code Python, passionnée de train, voyageuse et passionnée de photographie.

Leave a Reply

Your email address will not be published. Required fields are marked *