PageRank: анализ потоков - статья

Евгений Трофименко

В первой части статьи было установлено, что итерационные способы не имеет смысла использовать для расчетов PageRank, учитывающих окружение веб-сайта и "входящий" PR. Потому мы будем рассчитывать PageRank страничек не в численном виде, а виде функций от входящего PR. Это позволит выделить ту компоненту PageRank, которая возрастает по мере раскрутки PageRank: анализ потоков - статья, и отделить "остатки" в виде констант, величина которых порядка единицы.

Повторение: многофункциональный способ расчета PageRank

Задачка: высчитать постоянные значения PageRank, не применяя итерационных способов. Разглядим уравнение (1) внимательнее - в нем нет никаких особенностей, которые требуют внедрения итераций. Напротив, PR каждой странички определяется как функция PR других страничек. Представим, что мы PageRank: анализ потоков - статья достигнули стационарного состояния, и PageRank страничек не изменяется. Остается только записать уравнения для PR каждой из страничек и решить систему.

{1}

Итак, будем рассчитывать PageRank страничек веб-сайта как функцию от наружного, "входящего" PageRank. Для этого необходимы: уравнение (1) и представление об эквивалентности страничек 1-го типа. Пример-

На веб PageRank: анализ потоков - статья-сайте, который приведен ниже, 3 нижних странички эквивалентны меж собой во всех смыслах. Соответственно, они все будут иметь однообразный PageRank (P2). Головная страничка отличается от их и имеет PR=P1.

Запишем уравнения для страничек вида 1 и вида 2:

P1=0.15+0.85*(P0+3P2) - на страничку вида 1 ссылаются 3 странички вида 2, на каждой из которых PageRank: анализ потоков - статья есть одна ссылка.

P2=0.15+0.85*(P1/3) - на страничку вида 2 ссылается страничка вида 1, на которой есть 3 ссылки.

Решая эту систему, получаем-

P1=0.15*(1+3*0.85)/(1-0.85^2)+0.85/(1-0.85^2)*P0=1.92+3.06*P0 P2=0.69+0.87*P0

Этим способом хотя и труднее воспользоваться, но он обладает одним неплохим качеством, которого нет у итерационных способов - общностью.

Разные случаи: два типа страничек

Итак, начнем рассмотрение PageRank: анализ потоков - статья самого обычного варианта - веб-сайт состоит из одной головной странички и некого количества подчиненных страничек. Ссылки снаружи ориентированы на головную страничку.

Случай 1: "метла"

С головной странички (PageRank=P1) есть ссылки на N эквивалентных подчиненных страничек (PageRank=P2). Подчиненные странички не связаны меж собой, на каждой из их есть одна ссылка PageRank: анализ потоков - статья на головную страничку.

Система уравнений: (N>=1)

P1=0.15+0.85*(P0+N*P2) - на страничку вида 1 ссылаются N страничек вида 2, на каждой из которых 1 ссылка

P2=0.15+0.85*(P1/N) - на страничку вида 2 ссылается одна страничка вида 1, на ней N ссылок

Решая систему, находим зависимости P1, 2 от P0, N.

Решение системы: P1=0.15/(1-0.85^2)+0.85*0.15/(1-0.85^2)*N+0.85^2/(1-0.85^2)*P PageRank: анализ потоков - статья0 =>

P1=0.541+0.459*N+3.063*P0 P2=0.541+0.459/N+2.604*P0/N

Итак, мы лицезреем, что:

PageRank главной странички (P1) возрос не на P0, но на 3P0. Т.е, мы получаем реальный выигрыш за счет обоюдного воздействия страничек

P2 назад пропорционален числу страничек. Тривиальный вывод.

P1 прямо пропорционален числу страничек. Как следует, увеличивая количество страничек PageRank: анализ потоков - статья на веб-сайте, можно сконцентрировать большой PageRank на главной страничке. При всем этом P2 по мере роста количества страничек стремится к 0.541, а не к 1; и дает часть PageRank главной страничке

Средний PR

Рассчитаем суммарное значение PageRank по нашему сайту-

PR=P1+N*P2=0.541+N+5.667*P0

Это указывает, что:

Средний PageRank PageRank: анализ потоков - статья при большенном количестве страничек близок к 1.

PageRank на веб-сайте возрос не на P0, а на 5.667=0.85/0.15 P0. Это вышло из-за существования оборотной связи меж главной и второстепенными страничками, т.е., волна PR вроде бы "откатилась назад".

Но, при воззвании в ноль P0=0 средний PR не становится равным PageRank: анализ потоков - статья 1. Это происходит из-за того, что мы отказались от условия нормировки, но при "отрыве" веб-сайта от наружной среды должны его опять применить. Отказ от нормировки позволяет сохранить связь с наружным PageRank, при всем этом мы помним о необходимости перенормировки из-за "стягивания одеяла на себя".

Можно PageRank: анализ потоков - статья ли получить большой PageRank только за счет массы веб-сайта?

Судя по формуле, можно получить хоть какое значение PageRank главной странички только за счет роста количества страничек, ведь P1 линейно возрастает при увеличении N. При всем этом все странички веб-сайта должны быть проиндексированы Гугл. Но, вспомним о том PageRank: анализ потоков - статья, что существует малое значение PR, достигнуть которого нужно для индексации документа Гугл. Но ведь PageRank второстепенных страничек (P2) миниатюризируется с N! Поглядим на график:

Если число страничек на веб-сайте окажется очень огромным, то второстепенные странички просто не проиндексируются! И никакого сверхвысокого PR добиться не получится. Можно попробовать:

Равномерно добавлять PageRank: анализ потоков - статья странички Поставив несколько ссылок на другой страничке с неплохим PR, дождаться индексации части страничек. Потом добавить еще несколько страничек. И т.д.. Но: на полное добавление будет нужно сильно много времени!

Прирастить наружный PR Как видно, P2~P0/N. Т.е., увеличивая P0, можно достигнуть индексации второстепенных страничек. Но чем больше PageRank: анализ потоков - статья число страничек, тем больше придется работать на повышение наружного PR! На это тоже требуется много времени!

Использовать оба способа сходу

Ставить ссылки с второстепенных страничек друг на друга. Это мы разглядим дальше: случай 2.

Итак, невзирая на очевидную зависимость P1 от N, нет способности стремительно прирастить собственный PageRank PageRank: анализ потоков - статья - а это значит относительную устойчивость в рассредотачивании сил. К тому же, если веб-сайт вправду очень неплохой, и на него ссылаются "добровольно" - он всегда опередит "нехороший веб-сайт" (за счет более полной индексации страничек в том числе). Метод PageRank вроде бы подталкивает к постепенному развитию веб-сайта и PageRank: анализ потоков - статья постепенному добавлению страничек.

Случай 2: "кольцо на палочке"

Добавим к предшествующему случаю одну ссылку на "соседа":

С головной странички (PageRank=P1) есть ссылки на N эквивалентных подчиненных страничек (PageRank=P2). Подчиненные странички связаны меж собой: есть одна ссылка на соседнюю подчиненную страничку, на каждой из их есть одна ссылка на головную PageRank: анализ потоков - статья страничку.

Система уравнений: (N>=2)

P1=0.15+0.85*(P0+N*P2/2) - на страничку вида 1 ссылаются N страничек вида 2, на каждой из которых 2 ссылки

P2=0.15+0.85*(P1/N+P2/2) - на страничку вида 2 ссылается одна страничка вида 1, на которй N ссылок; и одна страничка вида 2, на которой 2 ссылки

Решение системы: P1=0.403+0.298*N+2.287*P0 P PageRank: анализ потоков - статья2=0.702+0.596/N+3.380*P0/N

Видно, что ситуация приблизительно такая же, как и в случае 1, но сейчас PageRank второстепенных страничек возрос, а главной странички - уменьшился. Это касается как зависимости от N, так и зависимости от P0.

В этом случае мы малость выигрываем в PR второстепенных страничек - это поможет их проиндексировать резвее, но понизит PageRank: анализ потоков - статья PageRank главной странички, ради которой все и затевалось. А что будет в предельном случае - когда все странички плотно связаны?

Случай 3: "камушек"

С головной странички (PageRank=P1) есть ссылки на N эквивалентных подчиненных страничек (PageRank=P2). Подчиненные странички попарно связаны меж собой: на каждой из их есть ссылки PageRank: анализ потоков - статья на всех N-1 соседей. На каждой из их есть одна ссылка на головную страничку.

Система уравнений:

P1=0.15+0.85*(P0+N*P2/N) - на страничку вида 1 ссылаются N страничек вида 2, на каждой из которых N ссылок (N-1 на соседей и одна на страничку 1)

P2=0.15+0.85*(P1/N+(N-1)*P2/N) - на страничку вида 2 ссылается одна PageRank: анализ потоков - статья страничка вида 1, на которй N ссылок; и N-1 страничек вида 2, на каждой из которых N ссылок

Решение системы: P1=(0.85*P0+1)/(1-(0.85^2/(0.15N+0.85)))-0.85/(0.15N+0.85-0.85^2)

Для простоты разглядим предельные значения P1, 2 при стремлении N к бесконечности: P1->1+0.85*P0-x/N P2->1+y*P0/N, где x, y порядка единицы.

Видно PageRank: анализ потоков - статья, что практически, наружный P0 оказывает влияние лишь на главную страничку веб-сайта, но слабее, чем в прошлых случаях. Зато возрастает до единицы PageRank втростепенных страничек.

Случай 4 (общий)

С головной странички (PageRank=P1) есть ссылки на N эквивалентных подчиненных страничек (PageRank=P2). Подчиненные странички связаны меж собой: на каждой из PageRank: анализ потоков - статья их есть ссылки на M примыкающих подчиненных страничек (M<=N). На каждой из их есть одна ссылка на головную страничку.

Система уравнений: (M<=N)

P1=0.15+0.85*(P0+N*P2/(M+1)) - на страничку вида 1 ссылаются N страничек вида 2, на каждой из которых M+1 ссылок (M на соседей и одна на страничку 1)

P2=0.15+0.85*(P1/N PageRank: анализ потоков - статья+M*P2/(M+1)) - на страничку вида 2 ссылается одна страничка вида 1, на которй N ссылок; и M страничек вида 2, на каждой из которых M+1 ссылок

Решение системы: P1=(0.15+0.85P0)/(1-(0.85^2/(0.15M+1)))+0.15*0.85*N/(0.15M+1-0.85^2)

Из этой зависимости видно, что при увеличении числа ссылок (M) меж второстепенными страничками PageRank главной странички PageRank: анализ потоков - статья все слабее находится в зависимости от N и от P0. Это происходит из-за передачи большой части PageRank в область второстепенных страничек, откуда "ворачивается назад" малая его часть.

Для наглядности разглядим зависимости PagaRank от числа страничек (N) и числа ссылок на примыкающие второстепенные странички (M) при входящем P0=1 (скачать графики в PageRank: анализ потоков - статья Excel):

PageRank главной странички (P1)

Видно, что самый резвый рост P1 происходит при увеличении числа страничек происходит при отсутствии ссылок меж второстепенными страничками (M=0). При наличии нескольких ссылок возрастание P1 становится неспешным. Если рассматривать изменение P1 при фиксированном количестве страничек N (к примеру, N=20), видно, что при увеличении числа PageRank: анализ потоков - статья ссылок M происходит резкое уменьшение PageRank главной странички.

PageRank второстепенных страничек (P2)

Второстепенные странички имеют высочайший PageRank только при маленьком их числе. При отсутствии ссылок на соседей (M=0) P2 миниатюризируется несколько резвее, чем в случае M=N, и добивается наименьших предельных значений. При фиксированном числе страничек (N=20) и PageRank: анализ потоков - статья увеличении числа ссылок (M) P2 мало растет.

Промежные выводы

Подходы к развитию веб-сайта для полной индексации Гугл и выигрыша в PageRank главной

Равномерно добавлять странички

Наращивать наружный PageRank

Поставить ссылки с второстепенных страничек друг на друга, а после индексации убрать их.

Замечание. Многие поисковики учитывают PageRank-подобные аспекты при ранжировании PageRank: анализ потоков - статья, но не непременно существование нижней границы PageRank для индексации.



pamyat-svyatogo-proroka-zaharii-serpovidca-zhitiya-svyatih.html
pamyat-svyatogo-yurodivogo-ioanna-ustyuzhskogo-chudotvorca.html
pamyat-svyatoj-muchenici-felicati-i-semi-sinovej-ee-zhitiya-svyatih.html