Jump to content
Korean Random
seriych

Занимательная статистика

Recommended Posts

Как ни крути, а "средний уровень боёв" куда как более информативен, чем "средний уровень техники".

только это не имеет отношения к распределению по уровням конкретных боев.

Share this post


Link to post

Short link
Share on other sites
я так понял ты хочешь красить игроков по-разному, в зависимости от текущего уровня боя? Это взрыв мозга будет.

Знаю, поэтому нет, не хочу. Хочу с учетом того, что в высоких левелах % пользующихся xvm больше, пересчитать границы цветов таким образом, чтобы для целевого пользователя xvm в бою цвета давали максимум информации. Как оценить количество информации в сообщении из N цветов, каждое из которых встречается с определенной вероятностью - энтропия Шеннона и в путь.

Edited by DotNetFramework

Share this post


Link to post

Short link
Share on other sites

Можно вообще, взять 30 игроков, которые в бой зашли, взять их wn8 и покрасить всех, используя min(1-30)...max(1-30). Будет прикольно.

Edited by StranikS_Scan

Share this post


Link to post

Short link
Share on other sites

@StranikS_Scan, была такая идея. Будет непопулярно. Ваще.
@seriych, в идеальных условиях нужно взять максимально репрезентативную выборку боев, т.е. то, что отдал сервер XVM за определенный период. Остальное нас не интересует, т.к. это не пользователи xvm с включенной статистикой. И вот на этой базе и надо играться.

Share this post


Link to post

Short link
Share on other sites
, я нифига не понял, чего ты хочешь

Share this post


Link to post

Short link
Share on other sites

@seriych, смотри. Проведем мысленный эксперимент. Пусть в некотором абстрактном xvm конфиге игроки раскрашены по некоторому рейтингу в 2 цвета - красный и зеленый. Берем за последний месяц, к примеру, 10000 случайных реплеев случайных игроков (допустим где-то мы их взяли, к примеру, wg подарило :D). Нам нужно найти границу зеленого и красного таким образом, чтобы в этом был какой-то смысл.

Из вышеупомянутых 10000 реплеев берем те, что сыграны игроками с включенным XVM. (Вот почему я писал про то, что это именно те данные, которые отдает сервер xvm за период).

Берем конкретный реплей, смотрим, сколько в нем получается красных и зелёных из 30 человек. Будем использовать формулу:

 

ae48db955ab831d19a34caf3847b6302.png

Пусть у нас всего 10 красных и 20 зелёных.

 

Получим S = - (10/30*log2(10/30) + 20/30*log2(20/30)) = 0.918296...

 

При соотношении 15/15:

 

S = - (15/30*log2(15/30) + 15/30*log2(15/30)) = 1

 

При соотношении 1/29 S = 0.210842.

 

Так вот, на вышеупомянутой базе реплеев/ответов сервера xvm можно выбрать в рейтинге такую границу красных/зеленых, чтобы средняя энтропия была максимальной.

 

Для 3/4/10 цветов расчеты не сильно сложнее.

Share this post


Link to post

Short link
Share on other sites

Из вышеупомянутых 10000 реплеев берем те, что сыграны игроками с включенным XVM. (Вот почему я писал про то, что это именно те данные, которые отдает сервер xvm за период).

Почти в 100% боев есть игрок с включенной статой, соответственно мы возьмем все реплеи. Или ты предлагаешь учитывать каждый реплей столько раз, сколько в нем игроков с включенной статой?

 

Нам нужно найти границу зеленого и красного таким образом, чтобы в этом был какой-то смысл.

Так вот, на вышеупомянутой базе реплеев/ответов сервера xvm можно выбрать в рейтинге такую границу красных/зеленых, чтобы средняя энтропия была максимальной.

И в чем "какой-то" смысл максимальной энтропии?

Share this post


Link to post

Short link
Share on other sites

столько раз, сколько в нем игроков с включенной статой

Да, это и есть то, что для этого боя отдал сервак xvm.

 

И в чем "какой-то" смысл максимальной энтропии?

Есть ли смысл взять, и покрасить всех в зелёный? Нет, т.к. в постоянном ответе сервера "вся твоя тима зелёненькая" 0 бит информации. Смысл в повышении информационной ценности.

 

есть книжка

Спасибо, утащил. Edited by DotNetFramework

Share this post


Link to post

Short link
Share on other sites

Я почитал и это дело вижу как бы вот так.

 

Пусть есть игроки и есть численный параметр, посредством которого мы оценили их скилл, например wn8. Однако, то, что мы знаем какой wn8 у каждого игрока, не достаточно для того чтобы начать игроков ранжировать по степени их скиллованности. Возьмем wn8 и линейно нормализуем его к виду X = [0...1]. Логично, что не зависимо от того сколько игроков имеют ту или иную величину X, каждый из этих игроков предложит свою шкалу цветовой градации. Если мы говорим только о двух цветах - красный и зеленый. То кто-то скажет, что зеленый должен идти от 0.7 и выше, а кто скажет что от 0.5 и выше и т.д.

 

Представим что мы задались границей в 0.5, все что равно и больше - это зеленые игроки. Возникает вопрос, а как часто мы будем видеть этих зеленых в рандоме? Если редко, скажем по 2 человека каждый бой, то тогда все остальные в каждом бою, а это 28 человек, будут красными. Отсюда выходит, что такой выбор границы явно будет слабо информативным. Численно это показать можно посредством энтропии: H(2vs28) = -(2/30)*log2(2/30)-(28/30)*log2(28/30) = 0.353. При этом наибольшая энтропия, если считать через логарифм по основанию 2, достигается при 15vs15 и равна 1.

 

Чтобы повысить информативность в данном примере очевидно необходимо сместить границу влево. Тогда красных будет встречаться меньше, а зеленых больше.  При этом вырастет и энтропия. Наилучший вариант с точки зрения информативности цветов будет тот, при котором энтропия станет максимальной, т.е. близкой или равной 1. А это значит, что зеленых и красных должно встречаться поровну или их кол-во должно различаться несильно. Например H(15vs15) = 1, H(14vs16) = 0.997, H(13vs17) = 0.987, H(12vs18)=0.971, H(11vs18) = 0.948, H(10vs20) = 0.918 ...

 

J4ssqKu.png

 

Добиться подбора такой границы можно следующим способом. Нужно взять 1000 случайных боев с 30 000 игроками, зная кто зеленый, кто красный, высчитать среднюю энтропию как Hср = (H1+H2+...+H1000)/1000, а затем смещая границу влево или в право добиться максимального показателя Hcр. Так как одно из главных свойств энтропии, является её не отрицательность, то варьируя границу цветов, мы всегда сможем найти глобальный максимум средней энтропии. Ну и логично что при этом информативность тоже будет максимальной.

Edited by StranikS_Scan

Share this post


Link to post

Short link
Share on other sites

@StranikS_Scan, всё именно так, спасибо, что расписал.

Добавлю от себя ответы на некоторые еще не появившиеся вопросы:

    • Q: А что, если предложенный метод определения границ возьмет, и поделит игроков на равные по численности группы для каждого цвета?
    • A: Возможно, что так и случится, необходимо проверять. Всё зависит от реальных данных. На самом деле тут всё было бы просто, если бы все играли примерно одинаково в качественном и количественном отношении, но следует помнить, что на низких левелах, которые проходятся быстрее, мало людей использует XVM, играют в основном, новички и т.д.
    • Q: Зачем всё это нужно?
    • A: Цветоделение игроков по вышеописанному способу даст больше информации реальному пользователю XVM и будет математически обоснованным.
    • Q: А что, если я не хочу, чтобы меня с фиолетового перекрасили в зелёный?
    • A: Вы имеете полное на это право, так же, как и выбирать себе конфиг по вкусу. В данном случае предлагается лишь проверить на практике некоторый алгоритм и посмотреть, что из этого выйдет. А дальше в ход пойдёт демократия.
    • Q: Хорошо, допустим вы тут красиво расписали теорию и вычислили новые границы цветов, а как быть, если сами базовые цвета мне изначально не нравятся?
    • A: Этот вопрос относится к теме колориметрии и зрительного восприятия, но не к статистике.

Share this post


Link to post

Short link
Share on other sites

короче, вы просто хотите покрасить так, чтобы каждый цвет встречался равное количество раз.

1) Нафига было к этому так витиевато подходить?

2) Статой и цветами пользуются не только игроки с XVM, а и пользователи сторонних ресурсов, с чего это мы базируемся только на юзерах XVM, точнее на боях с ними?

3) Это хрень полная, обсуждалось 100500 раз.

Share this post


Link to post

Short link
Share on other sites

"вся твоя тима зелёненькая" 0 бит информации

В этом ваша глобальная ошибка. Система не замкнута одним боем.

Share this post


Link to post

Short link
Share on other sites

короче, вы просто хотите покрасить так, чтобы каждый цвет встречался равное количество раз.

Если совсем короче - нет, не хочу.

 

Статой и цветами пользуются не только игроки с XVM

И давайте, потыкав пипеткой в Photoshop, убедимся еще раз, что у всех плюс/минус разные цвета.

И вопрос. У вас на один бой много, например, открытий страницы статистики на kttc/wot-news?

Да, у меня есть знакомые в клане, которые каждые 10 боёв смотрят, "насколько сотых процента статка подросла". Больные люди, imho)

 

Система не замкнута одним боем.

То есть от того, что мы возьмём 100500 боёв, где все зелёные, 0 бит превратятся во что-то еще? Нет.

А в целом, естественно, что должно считаться среднее на выборке.

Share this post


Link to post

Short link
Share on other sites

WG читает ваши похождения по терниям статистики и плавно фалломорфирует от увиденного )

  • Upvote 1

Share this post


Link to post

Short link
Share on other sites

То есть от того, что мы возьмём 100500 боёв, где все зелёные, 0 бит превратятся во что-то еще? Нет.

А в целом, естественно, что должно считаться среднее на выборке.

Ты не понял, перефразирую.

Система не замкнута только игроками в одном бою.

Share this post


Link to post

Short link
Share on other sites

 

 

Система не замкнута только игроками в одном бою.

Теперь понял, ок. Но.. Т.к. энтропия есть сумма с противоположным знаком всех относительных частот появления события, умноженных на их же двоичные логарифмы, а нам нужно найти максимум, т.е. считаем производные, то результат будет всегда одинаков. Можно даже распределения вероятностей брать, "но зачем?")))

А вообще множество значений вероятности (для любого фиксированного вероятностного пространства) является замкнутым. Пруф.

Share this post


Link to post

Short link
Share on other sites

 

 

Система не замкнута только игроками в одном бою.

 

Причем здесь один бой? Ты не прочитал разве мой последний абзац?

 

 

 

Добиться подбора такой границы можно следующим способом. Нужно взять 1000 случайных боев с 30 000 игроками, зная кто зеленый, кто красный, высчитать среднюю энтропию как Hср = (H1+H2+...+H1000)/1000, а затем смещая границу влево или в право добиться максимального показателя Hcр.
 

Share this post


Link to post

Short link
Share on other sites

Причем здесь один бой? Ты не прочитал разве мой последний абзац?

Так я не тебе отвечал.

Share this post


Link to post

Short link
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.


  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...