Более определяющими при ранжировании алгоритмов. Алгоритм ссылочного ранжирования PageRank и линейная алгебра

Автор рассказывает около 30 занимательных (и поучительных) историй из области математики. В одной из историй говорится о принципах работы PageRank – алгоритма ссылочного ранжирования, впервые использованного в Google. Тема актуальна и довольна проста для понимания. Так что слово Стивену Строгацу…

В те далекие времена, когда Google еще не существовало, поиск в сети был безнадежным занятием. Сайты, предлагаемые старыми поисковыми машинами, часто не соответствовали запросу, а те, которые содержали нужную информацию, были либо глубоко запрятаны в списке результатов, либо вообще отсутствовали. Алгоритмы на основе анализа ссылок решили проблему, проникнув в суть парадокса, подобного коанам дзен: в результате поиска в интернете должны были отображаться лучшие страницы. А что же, делает страницу лучшей? Когда на нее ссылаются другие не менее хорошие страницы.

Скачать заметку в формате или

Звучит подобно рассуждениям про замкнутый круг. Так и есть. Именно поэтому все настолько сложно. Ухватившись за эту идею и превратив ее в преимущество, алгоритм анализа ссылок дает решение поиска в сети в стиле джиу-джитсу. Этот подход построен на идеях, взятых из линейной алгебры, изучения векторов и матриц. Если вы хотите выявить закономерности в огромном скоплении данных или выполнить гигантские вычисления с миллионами переменных, линейная алгебра предоставит для этого все необходимые инструменты. С ее помощью был построен фундамент для алгоритма PageRank , положенного в основу Google. Она также помогает ученым классифицировать человеческие лица, провести анализ голосования в Верховном суде, а также выиграть приз Netflix (вручаемый команде, сумевшей улучшить более чем на 10% систему Netflix, на основе которой составляются рекомендации для просмотра лучших фильмов).

Чтобы изучить линейную алгебру в действии, рассмотрим, как работает алгоритм PageRank. А чтобы выявить его сущность без лишней суеты, представим игрушечную паутину, состоящую всего из трех страниц, связанных между собой следующим образом:

Рис. 1. Небольшая сеть из трех сайтов

Стрелки указывают, что страница X содержит ссылку на страницу Y, однако Y не отвечает ей взаимностью. Наоборот, Y ссылается на Z. Тем временем X и Z ссылаются друг на друга.

Какие страницы самые важные в этой маленькой паутине? Вы можете подумать, что это невозможно определить из-за недостатка информации об их содержимом. Но такой способ мышления устарел. Беспокойство по поводу контента вылилось в неудобный способ ранжирования страниц. Компьютеры мало понимают в смысловом наполнении, а люди не справляются с тысячами новых страниц, которые каждый день появляются в сети.

Подход, придуманный Ларри Пейджем и Сергеем Брином, аспирантами университета и основателями Google, состоял в том, чтобы позволить страницам самим ранжироваться в определенном порядке, голосуя ссылками. В приведенном выше примере страницы X и Y ссылаются на Z, благодаря чему Z становится единственной страницей с двумя входящими ссылками. Следовательно, она и будет самой популярной страницей в данной среде. Однако если ссылки поступают со страниц сомнительного качества, они станут работать против себя. Популярность сама по себе ничего не значит. Главное - иметь ссылки с хороших страниц.

И здесь мы снова оказывается в замкнутом круге. Страница считается хорошей, если на нее ссылаются хорошие страницы, но кто изначально решает, какие из них хорошие? Это решает сеть. Вот как все происходит.

Алгоритм Google назначает для каждой страницы дробное число от 0 до 1. Это численное значение называется PageRank и измеряет «важность» страницы по отношению к другим, высчитывая относительное количество времени, которое гипотетический пользователь потратит на ее посещение. Хотя пользователь может выбирать более чем из одной исходящей ссылки, он выбирает ее случайно с равной вероятностью. При таком подходе страницы считаются более авторитетными, если они чаще посещаются.

А поскольку индексы PageRank определяются как пропорции, их сумма по всей сети должна составлять 1. Этот закон сохранения предполагает другой, возможно, более осязаемый способ визуализации PageRank. Представьте его как жидкое вещество, текущее по сети, количество которого уменьшается на плохих страницах и увеличивается на хороших. С помощью алгоритма мы пытаемся определить, как эта жидкость распределяется по Интернету на протяжении длительного времени.

Ответ получим в результате многократно повторяющегося следующего процесса. Алгоритм начинается с некоего предположения, затем обновляет все значения PageRank, распределяя жидкость в равных частях по исходящим ссылкам, после этого она проходит несколько кругов, пока не установится определенное состояние, при котором страницы получат причитающуюся им долю.

Изначально алгоритм задает равные доли, что позволяет каждой странице получить одинаковое количество PageRank. В нашем примере три страницы, и каждая из них начинает движение по алгоритму со счетом 1/3.

Рис. 2. Начальные значения PageRank

Затем счет обновляется, отображая реальное значение каждой страницы. Правило состоит в том, что каждая страница берет свой PageRank с последнего круга и равномерно распределяет его по всем страницам, на которые ссылается. Следовательно, обновленное значение страницы X после прохождения первого круга по-прежнему равно 1/3, поскольку именно столько PageRank она получает от Z, единственной страницы, которая на нее ссылается. При этом счет страницы Y уменьшается до 1/6, так как она получает только половину PageRank от X после предыдущего круга. Вторая половина переходит к странице Z, что делает ее победителем на данном этапе, поскольку она добавляет себе еще 1/6 от страницы X, а также 1/3 от Y, и всего получается 1/2. Таким образом, после первого круга мы имеем следующие значения PageRank:

Рис. 3. Значения PageRank после одного обновления

В последующих кругах правило обновления остается прежним. Если обозначить через х, у, z текущий счет страниц X, Y и Z, то в результате обновления получим такой счет:

z’ = ½ х + у,

где штрихи говорят о том, что произошло обновление. Подобные многократно повторяющиеся вычисления удобно выполнять в электронной таблице (или вручную, если сеть маленькая, как в нашем случае).

После десяти повторений обнаружим, что от обновления к обновлению цифры практически не меняются. К этому моменту доля X составит 40,6% от всего PageRank, доля Y - 19,8%, а Z - 39,6%. Эти значения подозрительно близки к числам 40, 20 и 40%, что говорит о том, что алгоритм должен к ним сходиться. Так и есть. Эти предельные значения алгоритм Google и определяет для сети как PageRank.

Рис. 4. Предельные значения PageRank

Вывод для данной маленькой сети такой: страницы X и Z одинаково важны, несмотря на то что у Z в два раза больше входящих ссылок. Это и понятно: страница X равна Z по значимости, поскольку она получает от нее полное одобрение, однако взамен дает ей лишь половину своего одобрения. Вторая половина отправляется Y. Это также объясняет, почему Y достается только половина от долей X и Z.

Интересно, что эти значения можно получить, не прибегая к многократным итерациям. Надо просто подумать над условиями, определяющими стационарное состояние. Если после очередного обновления ничего не меняется, то x’ = x, y’ = y и z’ = z. Поэтому, заменив переменные со штрихом в уравнениях обновлений на их эквиваленты без штрихов, получим систему уравнений

при решении которой x = 2y = z. Поскольку сумма значений x, y и z должна равняться 1, отсюда следует, что x = 2/5, y = 1/5 и z = 2/5, что соответствует ранее найденным значениям.

Сложности начинаются там, где в уравнениях присутствует огромное количество переменных, как это происходит в реальной сети. Поэтому одной из центральных задач линейной алгебры является разработка более быстрых алгоритмов для решения больших систем уравнений. Даже незначительные усовершенствования этих алгоритмов ощущаются практически во всех сферах жизни - от расписания авиарейсов до сжатия изображения.

Однако самой существенной победой линейной алгебры, с точки зрения ее роли в повседневной жизни, безусловно, стало решение парадокса дзен-буддизма для ранжирования страниц. «Страница хороша в той мере, в какой хорошие страницы ссылаются на нее». Переведенный в математические символы, этот критерий становится алгоритмом PageRank.

Поисковик Google стал тем, чем он есть сегодня, после решения уравнения, которое и мы с вами только что решили, но с миллиардами переменных - и, соответственно, с миллиардными прибылями.

Согласно Google термин PageRang происходит от имени одного из основателей Google Ларри Пейджа, а не от английского слова page (страница).

Для простоты я представлю только базовую версию алгоритма PageRank. Для обработки сетей с некоторыми другими структурными свойствами его необходимо изменить. Предположим, в сети есть страницы, которые ссылаются на другие, но те, в свою очередь, на них не ссылаются. В процессе обновления эти страницы потеряют свой PageRank. Они отдают его другим, и он больше не восполняется. Таким образом, в конце концов они получат значения PageRank, равные нулю, и с этой точки зрения становятся неразличимыми.

С другой стороны, существуют сети, где некоторые страницы или группы страниц открыты для накапливания PageRank, но при этом не делают ссылок на другие страницы. Подобные страницы действуют как накопители PageRank.

Чтобы избежать подобных результатов, Брин и Пейдж изменили свой алгоритм следующим образом. После каждого этапа в процессе обновления данных все текущие значения PageRank уменьшаются на постоянный коэффициент, так что их сумма будет меньше 1. Затем остатки PageRank равномерно распределяются между всеми узлами в сети, как будто «сыплются с неба». Таким образом, алгоритм завершается действием уравнивания, распределяющим значения PageRank между самыми «бедными» узлами.

Более тщательно математика PageRank и интерактивные исследования рассматриваются в работе E. Aghapour, T. P. Chartier, A. N. Langville, and K. E. Pedings, Google PageRank: The mathematics of Google (

О том, что такое поисковая система и как она ранжирует сайты я писала в общих чертах ещё в статье от 8 августа.
Там мы рассмотрели, что из себя представляет поисковая система, как она узнает о новых сайтах, и как она определяет порядок показа сайтов в поисковой выдаче по запросу. Повторюсь, это были общие, и более абстрактные понятия. Сегодня же речь пойдет о конкретном алгоритме ранжирования в поисковой системе Яндекс.

Ещё в прошлом, 2009 году, поисковая система Яндекс перешла на новый алгоритм поиска – Снежинск, в котором используется технология Matrix. Net (Матрикснет). Но все это слова и ни о чем нам не говорят. Что такое Матрикснет? И при чем здесь город Снежинск? Постараемся постепенно во всем разобраться.

Итак, в ноябре 2009 года у Яндекса появился новый поиск. Чтобы понять смысл нового поиска стоит немного обратиться к истории и выяснить, а какой был старый? Ведь я сама начала изучать SEO уже в конце 2009 года, т.е. когда Снежинск с Матрикснетом уже был внедрен. Как строился поиск релевантных документов в поисковой системе Яндекс до Снежинска?

Не забываем, что поисковая система, это всего лишь робот, машина, основанная на математической логике. Т.е. в программу можно заложить математические формулы, х=1, у=3, x

Например, x=внутренняя оптимизация, y=внешние ссылки и т.п. Каждой такой переменной присваивалось некое число, а таких переменных было сотни. Все показатели потом "суммировались", т.е. каждому сайту присваивалось определенное число, в соответствии с которым и происходило ранжирование, выстраивание сайтов в определенной последовательности в поисковой выдаче. Естественно, что это самый примитивный пример, только для того, чтобы передать суть.

К чему в итоге это привело. Хоть секрет формулы никогда не раскрывался, всем было известно, что за основу берутся какие-то определенные показатели сайта, и естественно, это привело к тому, что каждый оптимизатор, обладающий аналитическими способностями, опытным путем мог выделить какое-то количество значимых параметров, которые влияют на ранжирование, и начать их использовать для продвижения, т.е. искусственным путем влиять на поисковую выдачу. Подстраивать свой сайт под конкретные показатели.

А раз оптимизаторы научились влиять на поисковую выдачу, значит на первых местах стали появляться сайты, которые, хоть и соответствуют поисковому запросу, но, своим нахождением в топе, не дают возможности пробиться в топ другим сайтам, которые также могут быть интересны и полезны людям. И самое печальное в этой ситуации было то, что в топе было много коммерческих сайтов, у которых были возможности тратить деньги на продвижение.

Что принес с собой новый алгоритм поиска Снежинск со своей технологией Матрикcнет? Я постаралась максимально полно изучить информацию об этом алгоритме ранжирования, и постараюсь передать вам его суть.

За основу были взяты не какие-то определенные показатели сайтов, а сами сайты, которые на взгляд работников Яндекс являются полезными ресурсами с человеческой точки зрения. На сколько оценка этих сайтов была объективной? Мы не можем судить об объективности подхода к этому. Но просто примем на веру.

Опустим кучу негативных отзывов оптимизаторов о том, что Яндекс – коммерческая организация, что его не интересует пользователь, а интересует только заработок с контекстных объявлений. Лично мое мнение такое – плохому танцору всегда что-то мешает:).

Яндекс всегда заявляет, что главная его задача – дать ответ пользователю. Примем это за аксиому. И поверим тому, что для нового алгоритма были отобраны сайты по объективным признакам.

Итак, было выбрано какое-то число определенных запросов, и определенное число сайтов, которые наиболее полно отвечают этим запросам. И специально обученные люди, асессоры, сопоставили каждому запросу определенный документ. Т.е. на их объективно-субъективный взгляд запросу 1 соответствует сайт А, запросу 2 – сайт Б и т.д.

Каждая такая пара "запрос=документ" была проанализирована машиной (программой), которая нашла среди этих документов закономерности (естественно, основываясь все на той же математической логике), и на основе выявленных закономерностей вывела формулу. Вот по этой-то формуле все и стало ранжироваться в поисковой системе Яндекс. Но, есть ряд оговорок.

Первая оговорка – таких формул много. Я могу предположить, что, чуть ли не для каждой тематики и направленности была выведена своя формула. Т.к. невозможно оценивать по одним и тем же признакам коммерческие сайты и не коммерческие, сайты развлекательной тематики с сайтами с научными трудами.

Вторая важная оговорка, что для того, чтобы вывести формулу, в машину в любом случае необходимо было заложить определенные переменные, т.е. показатели сайтов. То, на основании чего машина будет сравнивать сайты между собой.

А опять же, за счет чего можно сравнить сайты между собой? Конечно, тут не могут не рассматриваться внутренние и внешние факторы. Но и они уже не являются определяющими. В свете недавних заявлений Яндекс о , какие ещё показатели могут быть определяющими при ранжировании сайтов?

Все больше говорят о таком факторе ранжирования, как поведенческий фактор.

И именно он, по мнению многих, и по оговоркам представителей Яндекс, является определяющим при ранжировании. И, в определенной степени это действительно, может быть правдой.

Итак, в чем заключается уникальность нового алгоритма? Первое, именно человеческий фактор определяет на сколько один сайт интересней другого. С одной стороны, человеческий фактор – это субъективное мнение, одному нравится одно, другому – другое. Но тут скорее вопрос не об интересности, а о том, чтобы документ давал исчерпывающий ответ на заданный вопрос. И именно по этому принципу отбирались документы и присваивались определенным запросам.

И получается, что с другой стороны, машину пытаются обучить мыслить, как человек. Второе вытекает из первого, сотрудники Яндекс учат машину находить закономерности в человеческом мышлении. Машина эти закономерности находит (хорошо или плохо – это другой вопрос), и на основании этих закономерностей выстраивает свою формулу и следовательно поисковую выдачу.

И на самом деле, технология Матрикснет - это не что иное, как машинное обучение.

Благодаря этому, в поисковую выдачу с большей вероятностью попадают именно полезные ресурсы, в которых пользователь действительно находит ответ на свой вопрос. И вот тут важным является то, что, чтобы попасть в топ Яндекс, не обязательно быть старым трастовым ресурсом, не обязательно закупать большое количество ссылок.

Важным является интересный полезный контент, и явный интерес пользователей сети к сайту.

Да, а при чем здесь Снежинск? Дело в том, что именно в новом алгоритме улучшена формула ранжирования по региональным запросам. Т.е. где-бы не находился пользователь, и какие-бы запросы не набирал, приоритет будет отдаваться региональным сайтам, сайтам тех организаций, которые находятся в том же регионе, что и пользователь.

В следующих статьях я собираюсь более детально рассмотреть все возможные факторы, которые оказывают влияние на ранжирование сайтов, естественно, на основе заявлений официальных источников. И, естественно, что невозможно дать исчерпывающий ответ по факторам, т.к. все, что может оказывать влияние на ранжирование сайтов является тайной и не раскрывается представителями Яндекс. Также, постараюсь больше уделить внимание именно поведенческому фактору, по каким признакам определяется поведение пользователя, и почему это является "основным" фактором. Следите за обновлениями блога.

Все больше людей интересуется фрилансем, о том, какая может быть работа дома обещает рассказывать автор блога seolabel.ru. Возможно, вы найдете для себя что-то интересное.

Помимо графического и теоретико-множественного часто исполь­зуют и алгебраическое представление графа в виде матрицы.

Рассмотрим орграф G , содержащийn вершин иm ребер.Мат­ри­цей смежности орграфаG называется матрицаA размераn n

Иногда матрицу смежности называют матрицей отношений , или матри­цей не­пос­ред­ст­вен­ных связей .

Матрицей инцидентности (илиматрицей инциденций ) орграфаG на­зы­вается матрицаB размераn m , у которой

Для введения матрицы смежности нужно пронумеровать вершины, а для матрицы инцидентности - и ребра графа.

Алгебраическое представление позволяет алгоритмизировать в удоб­ной для программи­рования на ЭВМ форме процедуру определения структурных количественных параметров системы.

Рассмотрим теперь некоторые методы решения практических за­дач, ис­пользуя введен­ный нами математический формализм.

Ранжирование элементов систем

Анализ связей в графе заключается, прежде всего, в нахождении и оцен­ке путей между его верши­на­ми. Помимо непосредственного отыс­ка­ния пу­ти в не­ко­торой системе коммуникаций к этой задаче относится, например, задача вы­бора опти­маль­ной стратегии и др. Действительно, достаточно вершинам графа по­ста­вить в соответствие некоторые цели, а длинам путей - стоимости дос­ти­жения этих целей, чтобы получить за­да­чу выбора стра­те­гии дости­же­ния цели с наименьшими издержками.

Поиски путей по чертежу при сложной структуре гра­­фа (на прак­ти­ке приходится анализировать графы с числом вершин бо­лее 100) за­труд­нены и сопряжены с возможностью ошибок. Рас­смотрим один из ал­геб­раических методов, удобный для использова­ния на ЭВМ. Этот метод поз­во­ля­ет, исходя из матрицы непосредственных связей , построитьполную матрицу путей
, где- число путей из вершиныi к вер­ши­неj (= 0), либо ограничиться отысканием од­но­го из ее элементов.

Числа или их буквенные выражения определяются при помо­щи опре­де­лителей особого рода -квазиминоров (беззнаковых опре­де­ли­те­лей ). Имеет место формула

.

Выражение
называютквазиминором элемента мат­ри­цы. Знак
является символом квазиминора, а
ука­зы­вает на матрицу с вычеркнутымиl -й строкой иk -м столбцом, ко­то­рая впи­сывается в символ квазиминора подобно матрице, вписываемой в сим­вол обычного минора.

Вычисление квазиминора сводится к разложению его на квазими­но­ры меньшего порядка по формуле

Процедура вычисления во многом сходна с процедурой вычис­ле­ния обыч­ных определителей, но для овладения этим методом требуется не­ко­то­рый навык.

Пример.

Пусть матрица непосредственных связей имеет вид

Необходимо найти все пути, ведущие из вершины 1 в 5, и подсчи­тать их число.

Для рассматриваемого примера получаем

Первоначально в матрице вычеркивается столбец 1, соответ­ст­вую­щий номеру вершины, от которой начинается путь, и строка 5, со­от­вет­ст­вующая номеру вершины, в которой путь заканчивается. Это со­от­вет­ствует удалению из графа всех ребер, ведущих в вершину 1 и вы­хо­­дя­щих из вершины 5. По­ло­же­ние и нумерацию остальных строк и столб­цов удобнее оставить без из­ме­нения. Далее необходимо про­из­вес­ти раз­ло­жение полученного квази­ми­но­ра по ненулевым элементам 1-й строки

Разложение для первого слагаемого ведется по второй строке, вто­ро­го - по третьей, третьего - по четвертой, т.е. номер стро­ки, по которой ве­дется разложение, равен номеру столбца, в ко­то­ром на­хо­дился пос­лед­ний член разложения.

Если теперь положить для ненулевых элементов = 1 и про­из­вес­ти опе­ра­ции по правилам обычной арифметики, то получим -
.

Если же в полученном выражении произвести действия по пра­ви­лам буле­вой алгебры, то получим значение полной матрицы связей , которая ха­рактеризуетсвязность графа . Значения элементов пол­ной мат­рицы связейопределяются так:

= 1, если вершина i связана с вершиной j хотя бы одним путем,

=0 в противном случае.

Обычно считают, что
.

Связность - важнейшая характеристика структурной схемы систе­мы. Струк­тура тем луч­ше, чем полнее заполненность полной матрицы связей. На­ли­чие большого числа нулей гово­рит о серьезных изъянах в структуре системы.

Другая важная характеристика структуры - распределение значи­мо­с­ти эле­мен­тов сис­те­мы. Количественная характеристика значимости - ранг элемента - впервые явно была сфор­му­лирована при анализе струк­ту­ры отношений домини­ро­вания (превосходства, преобладания) в груп­пах индивидуумов (людей, жи­вот­ных).

Используя полную матрицу путей
, значения рангов элемен­тов опре­де­ляются по формуле

.

Следует иметь в виду, что значимость элемента определяется не са­мим значением , а сравнением рангов всех элементов, т.е. ранг- это от­но­си­тельный показатель значимости.

Чем больше ранг данного элемента, тем большим числом путей он свя­зан с другими элементами и тем для большего числа элементов нару­шат­ся нор­маль­ные условия работы при его отказе. Следовательно, при формировании про­граммы обеспечения надежности рассмат­ри­ваемой сис­те­мы необходимо уделить особое внимание элементам с большим рангом.

Для систем со структурой типа сетей наличие элементов с ран­га­ми, значительно боль­ши­ми, чем у остальных, обычно свидетельствует о функ­­циональной перегрузке этих элементов. Желательно перераспре­де­лить связи, преду­смот­реть обходные пути, чтобы уравнять значи­мость эле­ментов данной системы.

Существуют и другие методики определения рангов. Выбор под­хо­дя­щей методики опре­деляется спецификой задачи.

Следует отметить, что имеются структуры, ранжирование элемен­тов кото­рых может потерять практический смысл. Это, прежде всего, иерар­хи­ческие струк­туры. Значимость элемента в них определяется уров­нем иерар­хии.

PageRank - это числовая величина, характеризующая «важность» веб-страницы сайта. Чем больше ссылок ведет на страницу сайта и чем они более качественнее, тем страница становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank - это метод вычисления веса страницы с помощью подсчёта важности ссылок на неё.

Этот метод расчета запатентовали разработчики и сооснователи поисковой системы Google Сергей Брин и Ларри Пейдж. Более подробно ознакомиться с текстом исследования (на английском языке). На русском языке .

Что такое вес страницы сайта?

Под весом страницы степень ее важности. Если проводить аналогию с человеческими отношениями, то фраза "его слово имеет вес" будет отражать суть понятия "вес страницы сайта".

Вес страницы выражается в конкретных цифрах и его можно рассчитать.

Условно, вес страницы бывает двух видов:

  1. Статический вес (определенная цифра), который вычисляется на основании запросонезависимых факторов - это все факторы, которые не имеют отношения к поисковом запросу. Например, возраст сайта, его страниц, дата индексации страниц, количество внутренних и внешних ссылок, ведущих на страницу.
  2. Динамический вес, который вычисляется на основании запросозависимых факторов - это все факторы, который связаны с поисковым запросом (текстом). Текст запроса сопоставляется с текстом страницы сайта, поэтому, запросозависимые факторы это те, которые в первую очередь зависят от текстовых элементов страницы - ее заголовка title, описания description, текста на ней, анкоров (текстов) ссылок, которые указывают на нее и исходят с нее.
Алгоритм PageRank определяет статический вес страницы, а не динамический. Иначе говоря, статический вес страницы - это и есть ее PageRank. На сайте может быть страница без контента, но если на нее ведет хотя бы одна ссылка, то она будет иметь статический вес.

Статический вес считается поисковиками в фоновом режиме и присваивается странице сайта. Спустя определенное время он пересчитывается. Динамический вес считается не в фоновом режиме, а на лету, когда пользователь отправляет поисковый запрос поисковой системе для поиска результатов.

Как выглядит формула PageRank?

Никто точно не знает, как на самом деле Google рассчитывает PageRank. Но можно ориентироваться на эту формулу, предложенную Сергеем Брином и Ларри Пейджом в их исследовании.

PR(A)=(1-d)+d(PR(T_1)/C(T_1) +⋯+PR(T_n)/C(T_n)) , где

PR(A) - вес страницы-акцептора A (на которую проставлена ссылка)

PR(T_n) - вес страницы-донора, ссылающейся на страницу A (с которой проставлена ссылка)

C(T_n) - число ссылок со страницы-донора

D - коэффициент затухания, обычно принимается равным 0,85. В вероятностной модели он подразумевает, что пользователь не перейдет по ссылке вообще, а закроет страницу сайта. Такому событию присвоили вероятность равной 15 %. Остальные 85 % отданы ссылкам.

1-d - элемент, который нужен для того, чтобы формула не занулилась, если вес ссылающихся страниц-доноров будет равен 0. Это означает, что даже самая незначительная страница сайта может передавать какой-то минимальный вес по ссылке.

Формулу можно записать в таком виде

Вес страницы-акцептора сайта равен сумме весов, передаваемых по ссылкам от страниц-доноров к странице акцептору.

Пример

Если продвигается сайт в тематике по продаже рулонных штор, то нам нужно найти страницы на сайтах-донорах с высоким PageRank. При аутриче я не анализирую значение PageRank каждой страницы сайта, с которым хочу провести аутрич, т.к. такая страница может быть на заспамленном сайте. Я ориентируюсь на тематичность страницы-донора и чтобы такая страница была в ТОП-10 поисковый системы по тематическим информационным запросам, которые относятся к продвигаемому продукту/услуге и на показатели, по которым проверяю каждый потенциальный сайт-донор перед тем, как написать предложение его владельцу или лицу, ответственному за размещение материалов на нем, о публикации ссылки или упоминания.

Если страница находится на первой странице результатов поиска, значит алгоритм поиска посчитал ее качественной для того, чтобы быть в ТОП-10 по интересующему нас поисковому запросу. С такой страницы и нужно постараться получить активную ссылку или упоминание, т.к. она уже имеет трафик из поиска и ссылка, размещенная на такой странице, будет иметь большую вероятность перехода пользователями за счет нахождения в ТОПе.

Сисадмин (он же на английском языке sysadmin , system administrator ) - сокращенное наименование профессии, полное название которой на русском языке звучит как системный администратор . Данная профессия в последнее время стала очень популярной для большинства молодых, и не очень, людей, ей обучают, по ней работают, за неё получают хорошие деньги. Связано это с бурным развитием различных компьютерных технологий и их проникновением во все сферы человеческой жизни. Слово сисадмин часто используется в разговорной речи, в вакансиях и резюме при поиске работы, одним словом - везде. Ниже пойдет речь о том, что же представляет из себя профессия системного администратора.

В современных реалиях, системным администратором может называться фактически любой человек, который занимается обслуживанием и поддержанием работы определенной компьютерной сети, включая все её аппаратные и/или программные компоненты, в которую могут входить:

  • Персональные компьютеры, как рабочие станции, так и сервера;
  • Сетевое оборудование, такое как коммутаторы, маршрутизаторы, фаерволлы и многое другое;
  • Веб-сервера, почтовые сервера, сервера баз данных, и прочие.

Так же в определенных случаях, на плечи системного администратора могут лечь обязанности по обеспечению должной информационной безопасности.

В зависимости от своей специализации, системный администратор может заниматься следующими видами деятельности:

  • Администратор рабочих станций и серверов чаще всего занимается починкой как аппаратных (вышедшие из строя материнские платы, погоревшие блоки питания), так и программных (не загружается Windows, не печатаются запятые в Word"e...).
  • Администратор корпоративной сети на основе домена Active Directory. Очень популярное занятие, учитывая распространенность операционных систем Windows, а так же необходимость их как-то централизованно контролировать. Такой специалист должен уметь создавать, распределять по группам, редактировать пользователей, выдавать им соответствующие права в домене AD, а так же уметь управлять групповыми политиками для пользователей, их компьютеров и групп, в которых они все состоят.
  • Администрирование сетей и сетевого оборудования. В его обязанности входит знание топологии сетей, умение работать как с не настраиваемым, так и с настраиваемым сетевым оборудованием, планирование локальной вычислительной сети, а так же возможность объединения в одну сеть нескольких отдаленных друг от друга рабочих мест, путем настройки NAT"ов и VPN"ов. Не стоит так же забывать и контроле доступа в рамках этой сети, и за её пределами - настройка прокси.
  • Администратор веб-сервера, который должен как минимум уметь устанавливать, настраивать и обслуживать один из следующих веб-серверов - Apache, IIS, Nginx, следить за хостингом (который может располагаться как внутри сети организации, так и вне её). Кроме того, хороший администратор должен уметь настроить нормальное распределение ресурсов при высоких нагрузках, кластеризацию и много других специфичных вещей.
  • Администрирование почтового сервера так-же является распространенной задачей для сисадмина, в его задачи входит работа с такими популярными решениями как Exim, Microsoft Exchange, Postfix, Sendmail, или корпоративными почтовыми решениями от Google или, например, Yandex. Кроме очевидного контроля за учетными записями (создание, удаление, настройка), так же обязательно уметь настроить антиспам систему и прочее.
  • Администратор сайта. В эти обязанности может входить как просто какое-то наполнение содержимым сайта, но раз речь идет о системном администраторе, то по идее он должен уметь и настроить хостинг (в том числе и веб-сервер, о чем уже говорилось выше), установить и настроить нужный сайт, например какую-либо систему управления содержимым (CMS).
  • Совсем редко под обязанности системного администратора может попасть задача создания или обслуживания системы видеонаблюдления. В задачах установка и настройка камер, реагирования на различные события, сохранение и воспроизведение записей. Относится к системному администрированию слабо, и часто попадает в его обязанности по совместительству к каким-нибудь другим обязанностям.

За бортом описанных выше занятий системного администратора остались такие возможные вещи, как администрирование баз данных (Microsoft SQL, MySQL и его множественные ответвления, Oracle и т. д.), администрирование 1C (не путать с "программист 1C"), АТС и многое другое.