Если вам интересна динамика мирового развития, то скажу одну интересную вещь: около 90% всей информации в мире создано за последние три года. Причём такая ситуация наблюдается уже на протяжении, как минимум, последнего десятилетия: мир, подобно безумному принтеру создаёт всё новые и новые данные буквально «из воздуха». Экспонента создания информации, на которую мы попали в момент прихода к нам информационного общества, несёт нас вверх и вперёд в неизведанное будущее.
Конечно, большая часть этих данных представляет из себя самый натуральный информационный мусор. Каждую минуту люди и боты посылают друг другу более 200 миллионов электронных писем, ставят 1,8 млн. «лайков» в сети Фейсбук, строчат более 300 000 твитов в Твиттере и загружают более полумиллиона фотографий в различные онлайн-сервисы.
Любая точка нашей планеты, где есть люди, неизбежно обрастает всё большим объёмом сопутствующей ей информации, пусть часто это и будут мало-художественные и бесполезные фотографии вида «я на море» или «мой котик играет с коробкой». Тем не менее, от такого вала информации никуда не деться: нужные нам данные и знания находятся именно в нём, старые способы получения нужной информации в современном мире часто сбоят и оказываются малоэффективными.
Даже если вы ищите уникальный атлас XIX века с нужными вам картами, то вы, скорее всего, окунётесь в бескрайний мир глобальной сети в его поисках. Так как в противном случае вам надо будет, как минимум, поехать в Санкт-Петербург и каким-то образом получить доступ к специальным фондам нужных вам библиотек.
Проблема такого вала информации получила наименование Big Data (дословно: «большие данные»). Приход в наш мир big data вызвал к жизни и целое направление прикладного знания, нацеленное на работу с большими данными.
Специфику работы с big data определили пока что через «проблему четырёх V», которую на русский язык можно транслировать, как «четыре С».
Совокупность (англ. volume) - общий объём данных, который уже сейчас составляет экзабайты и зеттабайты накопленной информации.
Скорость (англ. velocity) - темп создания новых данных, когда их поток из единичного источника может достигать сотни терабайт за один лишь день.
Сложность (англ. variety) - разнообразие исходных данных, которое приходится приводить к некоему «общему знаменателю» для того, чтобы хоть как-то их каталогизировать и подвергнуть последующему анализу
Смутность (англ. veracity) - неопределённость исходных данных, которая влияет на их нечёткость в даже, казалось бы, 100% определённой цифровой форме.
Конечно, большая часть людей не ощущает на себе все этого «девятого вала» больших данных. С одной стороны, у любого индивидуума есть возможность создать свой личный «маня-мирок», в котором его индивидуальное восприятие будет отрезано от феномена big data. Никто ведь не удивляется тому, что в современном цифровом мире спокойно живут племена не просто не пользующиеся мобильной связью, но и не смотрящие телевизор. С другой стороны, пока что наряду с феноменом big data человечество успевает создавать «обрамляющие» его системы. Вопрос, скорее состоит в умении ими пользоваться. В противном случае вы рискуете попасть в ловушку «первой страницы поисковой выдачи Google", согласно которой 95% всех кликов по ссылкам поискового запроса приходятся именно на первую страницу результатов, а по первой ссылке переходят 70% сформулировавших запрос. Получается эдакая «добровольная цифровая цензура», завязанная на элементарную человеческую лень.
Но даже в том случае, если вы захотите припасть к живительному источнику стремительно накапливаемого человечеством знания, то вам надо быть готовым к тому, что вы можете просто утонуть в данных. В англоязычных источниках эта проблема именуется drinking from a firehose и переводится как «попытка напиться из гидранта».
В классической теории информации (которую, кстати, можно изучить и по бумажным книгам из начала информационной эпохи) попытка утоления жажды из такой тугой струи пожарного гидранта именуется несколько иначе: отделение полезного сигнала от шума.
При таком подходе весь совокупный вал сложных, скоростных и смутных исходных данных рассматривается вами, как некий «сырой сигнал», который вы должны уже сами разделить на «полезную составляющую» и «шум».
Только в этом случае ваша информационная жажда будет, вероятно, удовлетворена. Ну а если вы не научитесь пить из такого источника, то у меня для вас плохие новости: за бутилированную «питьевую воду» в мире будущего надо будет платить, причём платить достаточно дорого и постоянно.
zen.yandex.ru/media/id/5b18e997256d5c66dd840b4b/mir-tonuscii-v-dannyh-chto-grozit-pokoleniiu-liubitelei-kotikov-5b20bc685a104fc523036732 13.06.2018
alex-anpilogov.livejournal.com 13.06.2018 10:57
|