LoveRead.info » Книги » Психология » Big Data простым языком - Алексей Благирев

Big Data простым языком - Алексей Благирев

Книгу Big Data простым языком - Алексей Благирев читаем онлайн бесплатно полную версию! Чтобы начать читать не надо регистрации. Напомним, что читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Приятного чтения!

349 0 06:17, 27-05-2019
Big Data простым языком - Алексей Благирев
27 май 2019
Автор: Алексей Благирев Жанр: Книги / Психология Год публикации: 2019
0 0

Книга Big Data простым языком - Алексей Благирев читать онлайн бесплатно без регистрации

Наш телефон знает о нас больше, чем мы думаем. Он умеет собирать и анализировать информацию о том, как мы передвигаемся по городу, какие посты лайкаем и какими приложениями пользуемся. Он сообщит о пробках и поторопит на работу, чтобы мы не опоздали; подберет музыку под наше настроение и составит список персональных рекомендаций, чем можно занять себя в течение дня. Телефон – больше не устройство, по которому звонят, это уже средство управления окружающим нас миром. Незаметно мы окружили себя такими интерфейсами, которые создают невидимый барьер между человеком и окружающей средой. Планирование, управление, коммуникация, все теперь строится через эти программы и девайсы. Даже человеческие отношения.Но насколько глубока кроличья нора? Каждому предстоит разобраться в этом самому. Эта книга поможет донести основные принципы проектирования и создания таких интерфейсов управления бизнесом, обществом и окружающим нас миром посредством Больших данных. Читайте, наслаждайтесь и помните: сожжение книг противозаконно.
    1 ... 30 31 32 33 34 35 36 37 38 ... 42
    Перейти на страницу:

    4. Точность и оценка (Accuracy and valuation) – все посчитано честно и аккуратно.

    Надеюсь, сознание после этих трех групп еще не потухло, идем дальше. Когда работает аудитор, он оценивает материальные искажения в каждом из этих тринадцати измерений. Материальность отклонения также определяют по разным правилам. Так управляется риск контроля качества информации в финансовой отчетности.

    Мне показался данный подход достаточно зрелым, поэтому я взял его за основу и попробовал упростить для того, чтобы сделать единую методологию.

    Прежде стоит отметить, что раньше аудиторам помогали специальные напарники, которые аудировали, как работают IT-системы, хранящие первичную информацию для отчетности.

    Эти люди при проверке IT-систем изучали, как работает контроль в отношении данных. Должны были быть ответы на такие простые вопросы: «Откуда данные?», «Кто может их изменить?», «Как проверяется корректность значений?», «Какие программные средства использует организация для исправления проблем?» и так далее.

    Они используют опросы, изучают логи[133] подключений к системам и на выходе, по результатам своей работы, они могут сказать, в каких из измерений, скорее всего, будет проблема.

    Эти самые «assertions» можно смело назвать «измерениями», то есть некоторым разделением того, как я воспринимаю объект в реальном мире.

    Главное, что они должны говорить пользователю – любое число или любые данные – само по себе объект многомерный.

    Вот я держу книгу. В стандартной проекции у нее три оси – ширина от края разворота до середины, длина от одного края страницы до другого края страницы и толщина, то есть количество страниц. Книгу мы воспринимаем как физический объект в трех измерениях.

    Так вот, информация сама по себе имеет много измерений, больше трех. И не факт, что их именно тринадцать. Чтобы управлять качеством этой информации, нужно управлять представлением этой информации в этих измерениях. Это сложный контекст, отчасти поэтому в качество данных мало инвестируют и мало этим занимаются, хотя, на мой персональный взгляд, ценность этого очевидна.

    Чтобы стало проще, можно упростить количество тех самых измерений, в которых мы управляем качеством данных. Для простоты оставим только «полноту» и «точность» – то есть все, что произошло вокруг, отражено в информации и отражено корректно. Только два измерения.

    Теперь вернемся к пресловутому и коварному отчету «аппетит к риску» – здесь мы должны посчитать размер потенциального искажения для двух измерений.

    Как пострадает организация, если поймет, что не отражены только 95 % тех событий, которые произошли, или что сами 15 % событий отражены неточно? Возьмем то же поле «ИНН». Допустим, что поле заполнено только в 95 % случаев, а в заполненных оно некорректно в 15 % случаев. Пусть мы говорим о количестве записей 10 тысяч единиц известных нам, тогда потенциальный размер штрафа будет равен:

    15 %*95 %*10 000 + (10000/95 % – 10000) = 1425 + 526 = 1951 записи могут быть некорректны.

    Опустим как получили оценку 95 % или 15 %, для простоты считаем это экспертной позицией участников процесса работы с данными.

    1951 умножаем на размер штрафа в пятьсот рублей, получаем 975 500 рублей – это потенциальный убыток от проблем с качеством данных одного поля «ИНН» для организации.

    Как понять, какие измерения качества выбрать?

    Мне нравится одно очень интересно исследование, которое провели исследователи из MIT. Оно называется «Beyond Accuracy»[134][135]. Для него исследователи выделили несколько групп пользователей.

    В первой группе пользователей, которых они опросили, были студенты MBA.

    Во второй группе пользователей, среди которых был опрос, находились уже выпускники MBA, которые проработали в компаниях достаточное количество лет.

    Опросы так же отличались друг от друга. Опрос для первой группы включал в себя список возможных измерений контроля качества данных, из которого студенты должны были выбрать предпочтительный.

    Напомню, что в исследованиях всегда используют один из трех различных подходов получения научного познания:

    • Эмпирический – познание получаем через ощущения.

    • Теоретический – осмысление опыта с точки зрения логики.

    • Интуитивный – когда мы полагаемся на свой «внутренний» голос при исследовании того или иного события.

    В первой группе исследователи применили теоретический подход получения нового знания – а именно списка параметров, «измерений», по которым можно контролировать качество данных.

    Во второй группе исследователи применили уже интуитивный подход, чтобы понять, какие из этих параметров на самом деле наиболее важны в принятии решений и их влиянии на бизнес. В этом случае продолжительный опыт бывших выпускников MBA в компаниях являлся тем самым «внутренним фильтром», который помог определить наиболее ценные измерения из большого списка.

    Исследователи сформировали список из 32 параметров контроля качества данных (32 параметра – это достаточно внушительно), и попросили сформулировать, как бы выпускники контролировали качество данных.

    По итогам опроса получилось 179 уникальных параметров, которые сформулировали участники процесса, то есть в пять с половиной раз больше, чем исследователи изначально заложили в свою модель.

    Модель исследователей строилась на четырех основных группах, которые объединяли эти самые параметры:

    • Доступность – данные должны быть доступны для пользователя.

    • Интерпретируемость – данные должны быть способны к интерпретации. К слову, не пытайтесь использовать мандаринский диалект, если вдруг пишите комментарии в проводках и так далее.

    • Релевантность – данные должны быть релевантны для конечного пользователя, если они участвуют в процессе принятия решения.

    • Точность – данные должны быть точны для пользователя, то есть быть точными и из достоверных источников.

    Во второй группе исследователи отбросили часть новых параметров и показали только 118 параметров контролирования качества данных. Опрос строился на ответах 1500 выпускников MBA, которые уже имели внушительный опыт работы.

    Опустим тот факт, что опрос строился через почту, и тогда не было еще нормального работающего Интернета, обратимся лучше к его результатам.

    99 из указанных параметров из основного списка оказались абсолютно не важны, когда люди с большим опытом и багажом знаний попытались интуитивно ответить на тот же самый вопрос о том, как контролировать качество данных.

    1 ... 30 31 32 33 34 35 36 37 38 ... 42
    Перейти на страницу:
    1. Жалоба
    Отзывы - 0

    Прочитали книгу? Предлагаем вам поделится своим отзывом от прочитанного(прослушанного)! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


    Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

    • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
    • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
    • 3. Просьба отказаться от нецензурной лексики.
    • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

    Надеемся на Ваше понимание и благоразумие. С уважением, администратор LoveRead.info.


    Установить VPN и читай слушай бесплатно

    Новые отзывы

    1. Борис Борис14 июнь 00:50 Колокола в России тем и отличались от западных что раскачиаали именно язык колокола,а не сам колокол! Авторы что-жертвы ЕГЭ? Не... Соединенные Штаты России 3 - Полина Ром
    2. Людмила Хофман Людмила Хофман10 июнь 22:13 У меня перевернулся мир после прочтения ваших книг! Так приятно и чисто на душе, ведь по сути неважно кто с кем , а только любовь... Долгая игра - Рейчел Рид
    3. Анна Анна08 июнь 11:28 Спасибо за новую историю жизни и любви на сайте,прочитала с удовольствием .... Давай поженимся - Юлия Резник
    Все комметарии
    Новинки бесплатной онлайн библиотеки