Д. В. Кознов, Е. Ю. Леденева, Д. В. Луцив, П. И. Браславский, “Автоматическое определение сходства Javadoc-комментариев”, Труды ИСП РАН, 2023, том 35, выпуск 4,страницы 177

Автоматическое определение сходства Javadoc-комментариев

Д. В. Кознов^a, Е. Ю. Леденева^b, Д. В. Луцив^a, П. И. Браславский^c

^a Санкт-Петербургский государственный университет
^b Компания «Яндекс»
^c Национальный исследовательский университет "Высшая школа экономики"

Аннотация: Комментарии в исходном коде являются важной частью документации программного обеспечения. Многие программные проекты страдают от некачественных комментариев, которые часто создаются путем копирования и содержат многочисленные ошибки и неточности. В случае схожих методов, классов и т.п. копирование комментариев с небольшими изменениями оправдано, но и в этом случае разработчики делают ошибки. В этом исследовании мы решаем проблему обнаружения похожих комментариев к исходному коду, что позволяет улучшить комментариев к коду. Применительно к задаче определения сходства JavaDoc-комментариев мы провели оценку традиционных алгоритмов сходства строк и современных методов машинного обучения. В нашем эксперименте мы используем коллекцию комментариев Javadoc из четырех промышленных Java-проектов с открытым исходным кодом. Мы выяснили, что LCS (Longest Common Subsequence) является лучшим алгоритмом для решения нашей задачи, учитывая как качество (точность 94%, полнота 74%), так и производительность.

Ключевые слова: документация программного обеспечения, комментарии Javadoc, метрики схожести

DOI: 10.15514/ISPRAS-2023-35(4)-10