Впервые в истории лучший дистрибутив Linux определен по объективным показателям

Новое исследование делает холивары на тему лучшего дистрибутива Linux бессмысленными. Лучший дистрибутив определен и дальнейшие споры будут напоминать попытку оспорить утверждение, что 2 + 2 = 4.

Рейтинги дистрибутивов Linux

Привет, друзья! Как вы уже заметили, последний свой пост я написал еще в прошлом году, а на календаре уже 8 число. Люди стали волноваться и писать мне: что происходит? Точнее, почему ничего не происходит? Нет, я не лежал лицом в тарелке с оливье всё это время, а самоотверженно трудился для вас. И кое-что мне удалось. Я принес вам мир!

Что больше всего огорчало линуксоидов на протяжении десятилетий? Изнурительные срач-баттлы, холивары, набрасывание говна на вентилятор, стравливание газов в лужу и другие позорные позорные явления нашего времени. Но теперь это всё в прошлом. Впервые в мировой истории Linux мне удалось вычислить самый популярный дистрибутив Linux на основе объективных показателей и теперь спорить просто не о чем. В новый 2017-й год мы войдем вместе, взявшись за руки. Нас ждет новая эра высококультурного общения в теплой атмосфере взаимоуважения и доброты. Теперь мы не противники, а друзья, если не сказать братья. Война позади и теперь мы сможем сосредоточится на улучшении Linux. Впрочем, не забывайте, что многие наши товарищи до сих пор в анальном плену у Microsoft и мы должны их освободить, а это серьезный вызов и совсем расслабляться нам пока рано.

Итак, что я сделал. Каждая статья на Либератуме имеет счетчик просмотров. А еще каждый материал тегируется. Например, если статья о сравнении Debian, Ubuntu и Mint, то проставляются соответствующие теги. А если статья только о Debian, то ставится один тег. Я написал приложение, которое считает количество просмотров по каждому тегу и рассчитывает по формуле популярность дистрибутивов. Кто-то спросит: ну и откуда здесь объективность, ведь рейтинг отражает предпочтения пользователей Либератума? Но если посмотреть на структуру трафика, то прямые переходы с сайта на статью составляют лишь 1500-2000 просмотров (наши самые преданные читатели), а остальные приходят с Google и Яндекса. Получается, чем больше людей интересуются своими дистрибутивами в поисковиках, тем выше их популярность. Что и отображает рейтинг.

Предвижу и другой вопрос: а чем это лучше Distrowatch? Тем, что Distrowatch — фуфел. Там рассчитывается никакой не рейтинг, а количество переходов на страницы с карточкой дистрибутива. А что на той карточке? Ссылка на официальный сайт, релизы, название и прочая муть. Какой фанат не знает адреса официального сайта или название своего любимого дистрибутива? Вот и получается, что рейтинг на Distrowatch отображает не популярность дистрибутива, а черт знает что. В том рейтинге Manjaro на 5 месте, а Arch вылетел даже из десятки. Ubuntu откатился на 3 место. Мы что, должны поверить, что Debian популярнее Ubuntu? Да — он круче, но не популярнее. Это откровенная лажа. Мой же рейтинг удивит вас неподдельной гармонией. Этот рейтинг настолько правдоподобно отражает истинное положение вещей, что вы влюбитесь в него с первого взгляда. А теперь айда на новый сайт зырить таблицу!

Ваша оценка: Нет Средняя оценка: 4.2 (13 votes)

Ну например, я читаю все новости, что есть на главной. А любимого дистра нет, потому что у каждого куча своих косяков.

Ваша оценка: Нет Средняя оценка: 5 (3 votes)
pomodor

Поэтому ваш голос равномерно растекается по всем тегам и не дает преимущества какому-нибудь одному дистрибутиву.

Ваша оценка: Нет Средняя оценка: 5 (2 votes)
pomodor

Чем лично меня порадовал рейтинг. Якобы "успехи" Mint говорили нам как бы о том, что теперь линуксоид — это не элита компьютерного мира, а пионэры, которым на время приелся Виндуз и которые ищут новых ощущений. Чуть другая оболочка — это же круто! И всякие говнорейтинги типа Distrowatch пытались нас убедить в том, что теперь таких хомячков большинство. Но правильный рейтинг убедительно доказывает, что среди линуксоидов преобладают всё же не пионеры, а прагматичные люди, которые используют Linux в работе. Ubuntu — это десктопы. Debian и CentOS — это Linux на сервере для сайтов и как часть информационной инфраструктуры предприятия. И уже только потом пионэры.

Ваша оценка: Нет Средняя оценка: 5 (3 votes)

Дистровотч подтасовкой фактов занимается, бо Минт там один (с четырьмя-то ДЕ), а Убунт несколько (по количеству ДЕ). И если все Убунты собрать до кучи, то зулусы своей статистикой "порвут" всех с многократным отрывом. Обожаю Минт, а рейтинги мне совершенно пофиг.

Ваша оценка: Нет Средняя оценка: 5 (1 vote)
pomodor

Забыл сказать, рейтинг обновляется сам. Уже по изменению рейтинга собирается статистика, чтобы потом рисовать график и видеть изменение интереса к тому или иному дистрибутиву. Со временем сделаем голосовалку Up/Down. Предлагайте, чо еще запилить. Из того, что вижу я:

  1. Отдельную страницу с последними каментами по аналогии с последними отзывами.
  2. Отзывы и каменты отдавать полным текстом через RSS.
  3. Считать количество просмотров страниц по дистрибутивам. Не знаю пока зачем, но интуиция показывает, что этот показатель может улучшить формулу расчета рейтинга.
Ваша оценка: Нет Средняя оценка: 5 (2 votes)

Почему-то количество просмотров и рейтинг не коррелируют.
У просмотра малый весовой коэффициент или это количество дано для справки?

Ваша оценка: Нет Средняя оценка: 5 (1 vote)
pomodor

Количество за всё время для справки, для рейтинга используются данные за 2 последних года. То есть, если юзер переходит из Google на статью об ALT Linux, написанную во времена поносовщины, голос Альту не засчитывается.

Ваша оценка: Нет Средняя оценка: 5 (2 votes)
reflexius

Интересно... Много мыслей сразу приходит в голову, но главные связаны с интересом и критикой. Интересно, потому что это попытка создать рейтинг для оценки реальной популярности дистрибутивов. Критические же мысли связаны с завышенными ожиданиями и переоценкой объективности. Постараюсь объяснить, что я имею в виду. И заранее прошу прощения, если некоторые понятия окажутся не вполне ясными, но здесь мы вторгаемся в область методологии и методики научного исследования, а она имеет свои понятия. Кроме того, я буду краток, насколько это возможно :)

Поскольку я не знаю деталей конечного механизма ранжирования, обсуждение будет касаться только фундаментальных моментов, и только двух из множества имеющих место.

Любой рейтинг предполагает ранжирование объектов по некоторым ключевым критериям. В данном случае критерий — количество переходов на страницу дистрибутива из поисковых машин. Несмотря на то, что этот показатель выражен в числовой форме, он не является объективным, т.к. это частота события, являющаяся результатом воздействие различных факторов. Для простоты скажем, что этот показатель не очищен от результатов влияния различных факторов (переменных), которые сдвигают конечный результат по какой-то функции (пока неизвестной). Выявление возможных переменных обычно делается до проведения исследований и напрямую связано с последующей разработкой так называемого плана исследования или экспериментального плана (если это эксперимент в строгом смысле этого термина). После разработки плана исследования с учетом влияющих факторов и его проведения, на основе полученных данных о весе каждого влияющего фактора разрабатывается собственно механизм расчета конечного показателя, который используется в последующем анализе (например, создается рейтинг популярности дистрибутивов Linux).

Два фактора, которые являются важнейшими для подобного рейтинга и которые делают получение объективных результатов очень сложной задачей. Буквально без глубокого анализа я могу назвать эти переменные: содержание сайта и механизм ранжирования его содержания поисковой машиной. Таким образом, мы будем иметь два источника влияния на конечный результат, которые должны быть оценены и скорректированы, чтобы конечный результат (рейтинг) приближался к понятию "объективный".

Фактор №1. Содержание сайта. Любой сайт отражает определенный срез системы знаний о предмете, которая никогда не бывает полной. Даже Wikipedia — это всего лишь срезы имеющихся систем знаний по предметам. Естественно, чем ограниченнее эти срезы, тем менее объективными они являются. Но поисковой машине все равно, насколько эти срезы полноценны, она берет содержание индексирует его, затем ранжирует (по целому множеству критериев) и выдает в результат поиска. Таким образом, содержание сайта будет первым фактором, который повлияет на конечный результат. Я не собираюсь сейчас анализировать полноценность знаний о Linux на Либератуме, но могу утверждать, что срез знания несомненно специфичен. Прежде всего, содержание отражает системы знаний авторов, редакторов и читателей сайта. Авторы, читатели, редакторы, модераторы — люди, обладающие ограниченными знаниями, ведущими к предубеждениям. В результате, сайт получает неизбежную специфичность, которая так же неизбежно закладывается в ранжирование поисковых машин.

Фактор №2. Механизм ранжирования поисковой машины. Рассмотрим это как призму, в которой входящий сырой поток содержания расщепляется на составляющие по определенным критериям и формулам, а затем переводится в рейтинг машины по ключевым словам и выдается в результат поиска. По одним словам страницы сайта ранжируется выше, по другим — ниже. В итоге, мы получаем некоторое распределение, уникальное для каждого сайта в Интернете. Позиция ссылки на страницу сайта определяется алгоритмом ранжирования поисковой машины и напрямую влияет на вероятность перехода (выше позиция — выше вероятность). Я специально выделил уникальность, потому, что она — враг объективности в научном понимании. Из этого следует, что ранжирование Google, Яндекс и проч. машин никогда не бывает объективным, т.к. это лишь результат присущего машине механизма ранжирования (основанного на идеях его авторов). Не углубляясь в эту тему, которая, в силу моих знаний и предубеждений неизбежно приводит меня к выводу о корпоративном характере ранжирования в ведущих поисковых машинах, сразу перейду к заключению.

Заключение. Итак, два упомянутых фактора (в действительности их гораздо больше), которые должны быть учтены при составлении рейтинга популярности дистрибутивов, содержание сайта и распределение страниц в результатах поиска (ранжирование поисковой машиной). Оба этих фактора приводят к определенной конфигурации (системе) влияний, отражающихся в частотах перехода на страницы сайта. Сайт поставляет содержание (не объективное), а машина его переводит в поисковое распределение (не объективное). Эти факторы требует изучения и, как говорят в экспериментальных науках, должны контролироваться (т.е. мы должны знать степень их влияния, не путать с бытовым пониманием контроля), чтобы впоследствии рейтинг мог претендовать на звание "объективного".

Чтобы продемонстрировать на простом примере, можно ввести в Google ключевое слово "либератум" и посчитать в результате поиска частоту встречаемости названий дистрибутивов. У меня получилось: Ubuntu — 8, Debian, OpenSUSE, Fedora, Mandriva и др. по 2, Gentoo — 1, остальные отсутствуют. Не напоминает ли это отчасти полученный рейтинг? Насколько сильно влияет содержание самого сайта на полученный рейтинг? Будет ли рейтинг, построенный на частоте переходов таким же, если содержание будет отличаться (например, сайт на котором тусуются в большей степени сторонники Arch)? Насколько сильно влияние механизма ранжирования поисковых машин (различия рейтингов, полученных на основе данных разных поисковиков)? Это часть вопросов, которые должны иметь ответы до расчета рейтинга.

Таким образом, попытка построения еще одного рейтинга интересна, но присуждать ему статус "объективного" пока слишком оптимистично :)

Ваша оценка: Нет Средняя оценка: 5 (5 votes)
pomodor

Может оно и так. Но между теоретическими диспутами и практикой я выбираю практику. Понятно, что нет предела совершенству и формулы можно оттачивать годами, а фильтровать исходные данные и того дольше. Но я решил, что полезнее сесть и сделать пускай не идеальный, но вполне работающий рейтинг.

Что касается слова "объективный" в заголовке, то понятно, что оно для привлечения внимания. Популярность основывается на мнениях, а мнения по определению всегда субъективны.

можно ввести в Google ключевое слово "либератум" и посчитать в результате поиска частоту встречаемости названий дистрибутивов

Можно, но, простите, зачем? Никто же не переходит на страницу дистрибутива по запросу "либератум". Тогда уж правильнее искать в Гугле каждый дистрибутив с директивой site:liberatum.ru.

Ваша оценка: Нет Средняя оценка: 5 (2 votes)
reflexius

Теория без практики мертва, практика без теории слепа /А.В. Суворов/

Теория без практики — мертва и бесплодна, практика без теории — бесполезна и пагубна /П.Л. Чебышев/

Просто скажу, что попытка создать рейтинг имеет смысл по разным причинам. Но попытка сделать рейтинг на иных основаниях, чем существующие — полезна вдвойне, поэтому здесь у меня по поводу рейтинга сплошной позитив. Дело в том, что имеющаяся статистика популярности по дистрибутивам основывается чаще всего на данных браузеров при посещении тех или иных сайтов, что может говорить о том, какой дистрибутив установлен на компьютере посетителя, предоставляя полезную информацию об используемых дистрибутивах. Как мы все понимаем используемые и популярные — это не совсем одно и то же. Проще говоря, используемость следует за популярностью, а не наоборот. То есть, казалось бы мы можем уловить тренды в интересах пользователей и на основе этих трендов составить рейтинг популярности...

Google Trends позволяет построить рейтинг на основе статистики ключевых слов (названий дистрибутивов). Но каков недостаток Google Trends? Если мы попробуем ввести, например, Ubuntu, операционная система Ubuntu, Linux Ubuntu и т.п. сочетания слов, то получим разные тренды. Таким же образом, сравнивая дистрибутивы между собой, мы, в действительности, будем сравнивать рейтинги ключевых слов. Это убийственный недостаток. Он требует, чтобы мы каким-то образом выбрали ключевые слова, которые будут давать наиболее объективную картину. Сделать это практически невозможно, т.к. все ключевые слова — это всего лишь поверхность, они не дают нам никакой информации об операциях, которые с ними производятся — кто, куда, зачем. То есть мы не имеем достаточных данных о том, как ключевые слова используются в реальном поведении. Google содержит часть ответов, т.к. отслеживает трафик, но идеи создать рейтинг Linux дистрибутивов на основе переходов у них не возникло. И вот здесь и кроется весь позитив, который связан с рейтингом Либератума. Главный плюс Вашего рейтинга в том, что он работает не с бессмысленным массивом ключевых слов и не фиксирует данные браузера об операционной системе (используемость), а фиксирует четкий поведенческий акт — переход на страницу конкретного дистрибутива. Поведенческий акт — это реализованный в действии мотив (интерес), и если удастся максимально очистить данные о переходах от всевозможного шума, то удастся создать вполне объективный рейтинг. И теперь об объективности.

В современной науке понятие объективности знания напрямую связано с понятием метода. Для простоты можно выделить две группы методов: методы получения данных (наблюдение, эксперимент, квазиэксперимент) и методы обработки данных (все множество математических методов). Какими бы изощренными не были математические методы, обработка неправильно полученных данных лишена смысла, т.к. скорее всего приведет к ошибочным выводам. В нашем случае, расчет рейтинга должен производится на основе правильно полученных данных. Тогда результат будет соответствовать требованиям объективности (будет достоверным).

Рейтинг может быть вполне объективным, если данные о переходах, используемые при расчете рейтинга, избавлены от большей части искажений, т.е. являются валидными (действительно отражают предпочтения/интерес пользователей), надежными (устойчивы по отношению к воздействию различных факторов) и репрезентативными (хорошо представляют популяцию пользователей). Надежность мы можем оценить, применяя методы матстатистики, валидность можно обеспечить лишь разработав и обосновав метод получения данных, а репрезентативность — обеспечив в данных соответствующее реальности распределение групп пользователей. Понятно, что достичь требуемой надежности при большом объеме данных несложно. Но два последних момента — это как раз то, что будет отличать объективный рейтинг от всех остальных. И здесь все не так уж и безнадежно, иначе зачем весь этот сыр-бор.

Улучшить качество рейтинга (валидность) можно путем подтверждения того, что факт перехода не является случайным, т.е. действительно отражает мотивацию посетителя. Сделать это можно на основе оценки времени, проведенного на странице. Чем больше время, тем выше качество перехода (выше его условный балл в пользу дистрибутива). Все отскоки (bounce rating в Google Analytics) должны быть исключены из массива используемых переходов.

Улучшить репрезентативность можно, используя элементы опроса на страницах дистрибутивов. Например, просто предложив посетителю поставить галочку напротив групп(ы) пользователей, к которым он себя относит. После этого составить случайные выборки, по объему соответствующие реальному распределению (например, профессий). Это, конечно, менее объективно, чем данные из отдела кадров, но гораздо лучше, чем ничего. Метод опроса широко используется в социологических и медицинских исследованиях, поэтому вполне приемлем.

И, конечно, можно вводить дополнительные переменные или коэффициенты в формулу расчета, если появляются какие-нибудь релевантные данные у других авторов, учитывая известные зависимости и делая конечный результат более объективным.

Короче говоря, улучшать качество рейтинг возможно и нужно, если есть цель построить достачточно авторитетный и признаваемый инструмент отслеживания предпочтений пользователей Linux и оценки перспектив того или итого дистрибутива. Если нет — то и в качестве популяризатора знаний о Linux рейтинг тоже имеет смысл. Мне лично хочется поверить, что он вполне адекватно отражает реальность, но мой прошлый опыт исследовательской работы все время напоминает, что принцип веры лежит в основе религиозного мировоззрения, а принцип сомнения в основе научного.

И еще, может имеет смысл разместить на главной странице ссылку на страницу рейтинга?

Ваша оценка: Нет
Texnoline

Хм, интересный экспиренс можно иметь с подобных исследований, таких как на данном сайте. Необходимо время чтобы получить более точные данные в статистике, посмотрим как оно будет, через месяц другой.

Ваша оценка: Нет Средняя оценка: 5 (1 vote)

вставьте в рейтинг Mageia

Ваша оценка: Нет Средняя оценка: 5 (1 vote)
pomodor

Вставил. Пересчет пройдет автоматически в ближайшее время.

Ваша оценка: Нет Средняя оценка: 5 (1 vote)
pomodor

Приделал ленту. В планах сделать RSS по каждому дистрибутиву. Ну и треды с активностью должны всплывать вверх, а то народ креативит, а контент уезжает.

Активность наших коллег-линуксоидов приятно удивила. Рейтинг не проработал и суток, а уже запилено 48 отзывов. И заметьте, анонимусов не позвали, поэтому почти нет шлака, всё по существу. ;)

Ваша оценка: Нет Средняя оценка: 5 (2 votes)

Интересно, но регистрироваться все равно не буду.

Ваша оценка: Нет Средняя оценка: 4.2 (5 votes)
pomodor

Так никто не настаивает.

Ваша оценка: Нет Средняя оценка: 3 (2 votes)

может просто yandex wordstat попарсить ;-) Хотя если по дистру А будет запросу будет больше запросов, чем по дистру Б, еще не факт, что Б хуже. Может он как раз лучше, потому что проблем мало и искать нечего и ходить на сайты и читать обзоры незачем. Просто сидишь и работаешь ;-)

Ваша оценка: Нет Средняя оценка: 5 (2 votes)

Сделайте, пожалуйста, отправку комментария по Ctrl-Enter. В остальном очень даже норм!

Ваша оценка: Нет Средняя оценка: 5 (1 vote)
pomodor

Будет. И даже будут хоткеи для перехода к комментированию следующего отзыва. Во-первых, мы всё же линуксоиды и hotkeys у нас в крови. Во-вторых, рейтинг запилен на Slim Framework, а это значит, что мы вообще никак не ограниченным в том, как будет выглядеть новый сайт.

Ваша оценка: Нет Средняя оценка: 5 (2 votes)

Лучший, худший ... — это понятия субъективные. По моему мнению, следовало бы говорить о более просматриваемый или вызвавший наибольший интерес. А так, насколько я понял, в основе критерия "лучшести" лежит количество просмотров.

Ваша оценка: Нет
reflexius

Это рейтинг лучшего дистрибутива с точки зрения его популярности. Это имеет смысл, т.к. популярность дистрибутива вряд ли будет высокой, если дистрибутив не отвечает интересам пользователей.

Ваша оценка: Нет Средняя оценка: 5 (2 votes)
gundenaf

Я принес вам мир!

Не придирка и не троллинг, но просто экскурс в историю: автор этой цитаты, некий английский премьер-министишка просто сказочно все запорол.

Это не к слову, просто шутка-минутка)

Ваша оценка: Нет

Задумка интересная, но объективность оставляет желать лучшего. Статей по Ubuntu здесь добрая половина, немногим меньше — по Linux Mint (хотя большинство из них, прямо скажем, ругательные), а вот, например, по Manjaro — всего полторы штуки. Логично, что первая явно будет популярнее (если я ничего не упускаю). Но по сравнению с Distrowatch это, конечно, небо и земля.
Почему бы не вынести ссылку на топ в шапку? Хоть он пока и в зачаточном состоянии, но все же имеет право быть увиденным.

Ваша оценка: Нет

s/лучший/популярный/g

Ваша оценка: Нет Средняя оценка: 4 (1 vote)
Отправить комментарий
КАПЧА
Вы человек? Подсказка: зарегистрируйтесь, чтобы этот вопрос больше никогда не возникал. Кстати, анонимные ссылки запрещены.
CAPTCHA на основе изображений
Enter the characters shown in the image.