2.1.1 Данные и информация

iDevice ikoon 2.1.1 Данные и информация

Информация - факты, события, вещи, процессы, идеи, понятия или иные касающиеся объектов знания, которые имеет особое значение в определенном контексте.

В организации необходимую информацию в основном сохраняют в документах (в цифровой форме или на бумажном носителе), а данные, главным образом, в базах данных.

Информация может быть определена как сообщение, которое выступает в виде документа или коммуникации в аудиовизуальной форме. Как и у каждого сообщения, так и у информации имеются отправитель и получатель. Задача информации - влиять на суждение и поведение получателя. В отличие от данных у информации имеются смысл, значимость и назначение. Данные становятся информацией, если их создатель добавляет к ним смысл. Важно отметить, что ИТ помогает превращать данные в информацию, а также добавлять им смысловую ценность. Тем не менее, ИТ не помогает в создании контекста (категории, калькуляции, формы) - все это создают люди.

Данными (data) называют формализованный способ представления информации в понятной для человека и / или машины форме (отформатированной специальным образом), которую можно использовать для общения, трактовки, сохранения или обработки.

Данные являются детальными, объективными фактами событий. Все организации нуждаются в данных, и большинство сфер деятельности основано на них (данных). Эффективное управление данными - это одно из важнейших критериев успеха, в противоположность этому, большой объем данных, безусловно, еще не является критерием успеха.

Нет возможности автоматически вывести правильные решения на основе большого набора данных объективно по двум причинам.

Во-первых, слишком большой объем данных делает данные трудными для идентификации и для осмысления их значения. Во-вторых (это также главная причина), у данных по своей сути нет значения. Данные характеризуют или описывают только произошедшее, они не включают ни оценок, ни вдохновения. Для организации данные все же очень значимы, поскольку на их основе создают информацию.

Элементом данных называют в данном контексте (связанным с содержанием) неделимую единицу данных.

Каждое программное приложение управляет и манипулирует данными, которые можно интерпретировать как внутренние переменные данных обработки, либо как оригинальные и соответствующие некие объекты(«data» на латинском языке и «données» на французском языке), эти данные являются элементами информации, которыми обмениваются с пользователями или внешними системами.

Задачи типологии данных сгруппированы в соответствии с происхождением источника / канала (ввод) и пункта назначения (вывод), и мы можем в идеальном случае каталогизировать (занести) программные системы приложений в пять категорий:

  1. («внутренние» данные) алгоритмическая обработка
  2. автоматизация и управление (ввод / вывод (I/O), с преобразователя / датчика и на преобразователь / датчик)
  3. интерфейс «человек-машина» (I/O от пользователя к пользователю)
  4. передача / перенос данных (I/O из сети обработки в сеть обработки)
  5. передающие системы и банки данных (I/O из системы непрерывного хранения данных в систему непрерывного хранения данных).

База данных

База данных (database) - совокупность взаимосвязанных и систематизированных данных. В самом элементарном смысле под базой данных понимают набор данных, которые в дополнение к самим данным содержит в себе также описание структуры данных - вместе с данными хранится также их описание. Можно сказать по-другому: база данных представляет собой совокупность данных вместе с описывающими эти данные метаданными (структуры данных). На самом элементарном уровне описание данных содержит описания таблиц (в которых хранят данные) и описания межтабличных связей.

Современные системы баз данных хранят в дополнение к описанию данных, также и обрабатывающие процедуры и правила запуска этих процедур (триггеры (triggers) и планировщики (schedulers)), в базах данных.

В более широком смысле под базами данных не следует понимать только электронные базы данных, которые реализованы в компьютерных системах. Базы данных существовали задолго до того момента, когда их начали реализовывать в компьютерных системах. Произвольные картотеки являются базами данных независимо от того, какой носитель данных используется в этой картотеке (карта картотеки, каменная доска, перфолента, перфокарта и пр.).

В пределах одной и той же базы данных находящиеся в базе данных описания данных и данные должны всегда интерпретироваться одинаково - они должны храниться в физической структуре с определенным заданным строением.

В электронном смысле база данных является компьютерной программой, которая позволяет хранить данные и отображать их пользователю (-лям) в желаемом формате. В базах данных хранят информацию об определенных объектах. Наиболее распространенная реляционная база данных состоит из нескольких таблиц. В одной таблице обычно хранят собранные данные объектов одной определенной категории (рабочий станок, автомобиль, личность, работник) .

Примеры баз данных:

  • база данных историй болезней в больнице
  • каталог книг в библиотеке
  • база данных регистраций браков и разводов в ведомстве записи актов гражданского состояния (загсе) и т.д.

Начало развития электронных систем баз данных

Основным стимулом к созданию электронных базы данных (сначала, конечно, картотек) явились три вещи (в данном порядке) - создание компьютера с современной структурой, создание постоянной памяти, базирующейся на магнитных свойствах вещества и создание систем произвольного доступа записи-чтения данных (непоследовательных). Здесь, конечно, нельзя оставить без упоминания то, что важным катализатором явилось то, что к этому времени был создан ряд стратегически важным картотек, чье обслуживание на старых и структурных платформах начало превосходить имеющиеся силы.

Изрядный объём исследований по созданию первого поколения современных компьютеров (1945-1956) принадлежит периоду Второй мировой войны, когда страны пытались при помощи компьютеров достичь стратегического превосходства - усилия, предпринятые во время войны, вылились сразу после войны в создание компьютеров нового поколения. Основные идеи, воплощенные в них, определили тенденции компьютерного развития на следующие сорок лет (EDVAC - Университет штата Пенсильвания (University of Pennsylvania) в 1945 году, EDSAC - Кембриджский университет (Cambridge University) в 1949 году, UNIVAC I -Remington Rand, 1951). Было введено два основных принципиальных изменения. Во-первых, в компьютерной архитектуре описали понятие центрального процессорного устройства (процессора), который позволил компьютеру управлять единым потоком данных. Во-вторых, как исполнимые программы, так и программы для управления и обработки необходимых данных начали хранить в одной и той же памяти. Все это заложило основы для коммерческого производства компьютеров.

В 1945 году был создан новый носитель данных, магнитная лента, которая понемногу стала заменять перфокарты и перфоленты. Это был первый носитель данных, который предоставлял возможность поиска данных. Однако этот механизм поиска еще не был достаточно совершенным, поскольку возможным был только последовательный поиск. Существенное значение имело, однако, то, что «объем сохраняемых данных на единицу площади» рос неизмеримо быстро, в результате чего, и для множества лент, параллельно находящихся в работе с фрагментацией данных, смогли обеспечить уже достаточную оперативность при поиске.

До создания первых современных систем баз данных оставалось еще примерно пару лет, когда Уильям. C. Макги (William. C. McGee) в 1959 году опубликовал свою статью «Generalization: Key to Successful Electronic Data Processing» в журнале Journal of the ACM (Volume 6, Number 1, January 1959 стр. 1-23, ACM - Association for Computing Machinery). Хотя, конечно, в статье еще не предлагались положения обобщения конкретных данных, а ограничились лишь обще-концептуальной философией, это был первый путевой указатель, показывающий направление в развитии современных принципов моделирования данных.

В том же 1959 году IBM представила свою систему на жестких магнитных дисках Ramac (Random Access Method of Accounting and Control) модель 305, которая является первой системой на жестких магнитных дисках и состоит из 50 дисков с диаметром около 60 см, на обе стороны которых можно сохранять информацию. С плотностью записи информации - 2000 бит на квадратный дюйм с общим объемом 5 МБ. Значительным переворотом здесь были все же первое применение режимов чтения / записи при произвольном доступе к данным и немалая скорость записи / чтения данных.

В 1961 году корпорация General Electric разработала систему управления базами данных IDS (Integrated Data Store), которая считается первой электронной системой управления базами данных. Руководителем проекта был Чарльз Бахман (Charles Bachman). Здесь, конечно, еще нельзя говорить о системе управления базами данных в современном понимании, поскольку большинство функций базы данных кодировались вручную, в качестве базы данных рассматривался один единственный файл, и она работала только на компьютерах General Electric Co. и разрешала конкретные потребности только этой компании. Это стало стимулом для созыва группы CODASYL (Conference on Data Systems Languages), которая состояла из добровольцев и чьей целью были эффективный анализ систем баз данных, проектирование, и внедрения и разработка прикладных средств и методик. Группа была создана в 1959 году и работала вплоть до 1985 года. В качестве основной задачи группы было определено создание стандартного, используемого на разных компьютерах языка программирования. Этим языком программирования стал COBOL и в этих рамках сформулировали также основные концепции сетевой модели данных.

В 1968 году корпорация IBM вышла со своей концепцией IMS (Information Management System), которая сформулировала основы иерархических моделей данных. И сразу следом (в 1969) выпустила усовершенствование той же модели (IDM DB / DC), в которой описывается метод построения сетевого представления иерархической модели. Оба решения были предназначены для использования на мэйнфреймах IBM System/360.

До этого момента все базы данных использовались под управлением одного процесса. В конце 70-х годов прошлого столетия IBM вместе с American Airlines создали систему SABRE, в которой через коммуникационную сеть доступ к данным получили одновременно уже много пользователей.

Несмотря на довольно бурное создание различных баз данных в конце 70-х годов прошлого столетия, еще не появилась отдельностоящая система баз данных, продаваемая на коммерческой основе. Положила начало этому опять-таки компания IBM, что явилось ее немалой заслугой. В 1970 году исследователь IBM Эдгар Ф. Кодд (Edgar F. Codd) предложил модель реляционной базы данных, где данные хранятся в таблицах, между которыми строятся отношения. IMS модели дополнили принципами реляционной модели данных и на этой основе разработали систему баз данных SYSTEM/R, которую продавали вместе с мейнфреймами IBM вплоть до 1980 года. Опубликованную информацию о системе IBM SYSTEM/R ученые Калифорнийского университета Майкл Стоунбрейкер (Michael Stonebraker) и Евген Вонг (Eugene Wong) взяли за основу в своей исследовательской работе и разработческой деятельности. В результате этих разработок они создали свою систему баз данных, которой дали название Ingres и у которой были все необходимые для коммерциализации существенные свойства. В конце концов, этот продукт был коммерциализирован компаниями Oracle Corp. и Ingres Corp.

Стоит отметить также событие 1979 года, которое ознаменовало рождение тенденции и одного восходящего продукта. Во время 70-х годов были разработаны несколько различных языки запросов - SQUARE, SEQUEL, QBE, QEL и т.д. В 1979 году компания Oracle вывела ​​на рынок первую коммерческую систему баз данных, которая использовала в качестве языка манипулирования данными язык SQL (вариант стандарта Oracle Corp. SEQUEL). Восходящим продуктом стал Oracle DBMS и восходящей тенденцией - язык SQL.

В конце 60-х начала развиваться еще одна группа систем, которые в настоящее время являются компонентами раздельного использования больших баз данных. Первоначально называли их системами поддержки принятия решений (DSS - Decision Supporting System). Их основной целью было упрощение обработки данных и более эффективное использование в поддержке принятия решений. По сути, это была деятельность, связанная с разработкой инструментальных аналитических средств обработки данных. Такие подсистемы создавались, конечно, в течение всех 70-х годов прошлого столетия, однако первое коммерческое решении поспело только-только к 1970 году. Таковой стала система EXPRESS.

Базы данных и персональные компьютеры

К началу 80-х годов прошлого века была создана базовая платформа для моделирования данных и развития систем баз данных, и казалось, что никаких особых подвижек в том или ином направлении не должно уже произойти. Однако эту ситуацию нарушил выход на рынок персональных компьютеров. Вскоре создали первую реляционную систему баз данных DBase, созданную для персонального компьютера. Вслед за DBase стремительно последовали DBase II, Paradox, Fox, FoxPro, DBase III, Dbase IV и пр. Это критически изменило ситуацию - базы данных стали доступны большему количеству пользователей, так и методики и инструменты моделирования данных стали доступными для многих. Следом приступили к разработке новых и более удобных пользовательских интерфейсов.

Через некоторое время добавились средства создания локальных сетей -

аппаратное обеспечение и программное обеспечение. Свой прыжок сделали и системы баз данных - ко всем жизнеспособным системам баз данных добавили свойства одновременного использования данных многими пользователями. Это оказалось не так-то просто сделать, как поначалу казалось - стали возникать конфликтные ситуации между одновременными пользователями данных, и это обусловило развитие совместного использования данных и теории блокировок.

В 1985 году был опубликован первоначальный стандарт языка SQL - языка, который корпорация Oracle Corp. ввела в качестве языка манипулирования данными для своей системы баз данных, который между тем проходил процесс стандартизации и предоставлялся для использования в большом количестве продуктов. На сегодняшний день утвержденный стандарт перетерпел многократные изменения.

1985 год был интересным годом во многих отношениях. В дополнение к представлению первого стандарта языка SQL в этом же году внедрили также первую систему бизнес-аналитики (business intelligence). Компания Metaphor Computer Systems Inc. изготовила для Procter & Gamble Co. систему, которая сочетает в себе анализ информации о продажах и информации по надзору за рынком. В этот же самый год Pilot Software Inc. начала продажу системы Command Center - на рынок вышла первая система с архитектурой клиент / сервер. В связи с этим начали сразу развиваться теории баз данных с распределенной (distributed) структурой, затем теории, разбирающие репликацию данных, и теории и системы поддержки. К сожалению, еще до сегодняшнего дня не создано до конца корректно действующих систем репликации данных, которые удовлетворяли бы всем требованиям использования.

В конце 80-х годов произошел значительный переворот в архитектуре систем баз данных. Созданная тогда архитектура с незначительными изменениями сохранилась и до сегодняшнего момента. Название этой архитектуры - клиент / сервер (client/server). Если до сих пор системы управления базами данных обращались к находящейся в компьютерной сети базе данных или к сетевому диску, то теперь общение с базой данных стало на основе сообщений. В этой архитектуре имеются две стороны - клиент, т.е. прикладная программа и мотор (движок) сервера базы данных (исполнительная программы сервера базы данных). Клиент отправляет сообщение запроса на сервер, а сервер, в свою очередь, передает в ответ свое сообщение или серию сообщений. Таким ответом может быть просто сообщение о том, закончилось ли выполнение запроса успешно или нет (в последнем случае возвращается номер и описание сообщения об ошибке) или же заказанные (запрашиваемые) приказом (запросом) данные.

С этого момента стабильное развитие технических средств происходило без существенных скачков. Совершенствовались технические возможности, аппаратное обеспечение стало быстрее, алгоритмы обработки данных и методы оптимизировались и усовершенствовались.

Программы базы данных подразделятся на:

  • плоские базы данных (иерархические базы данных), где данные выстраиваются в древовидную структуру, т.е. находящиеся ниже данные связаны с верхними и добраться до них можно только через верхние данные
  • реляционные базы данных, где объекты (единицы) данных объединены между собой отношениями (связями). Эти отношения представляются, в основном, таблицами, причем в столбцах отображаются поля данных (например, личный идентификационный код, имя, фамилия, образование, семейное положение и т.д.) и в строках - объекты данных, т.e. записи (например, персональные данные работника).

В дополнение к вышеупомянутым широко распространенным программам используются в очень большом количестве программное обеспечение, созданное для профессионального применения (для врачей, архитекторов, юристов, бухгалтеров и т.д.), которое можно сразу же использовать без дополнительной настройки. Это программное обеспечение именуют также вертикальным программным обеспечением. Их главное отличие от стандартных программ заключается в том, что они производятся в относительно небольших количествах и их цена многократно превышает цену широкораспространенных программ. Часто они написаны с использованием программных средств реляционных баз данных.

Если имеются всего 2..3 друга, то мы сможем запомнить их телефонные номера и адреса. Если же имеются несколько тысяч друзей и знакомых, то для запоминания их имен и телефонных номеров не хватит памяти и мобильного телефона. Что в таком случае предпринять?

Можно было бы записать все их в какую-нибудь управляемую компьютером программу. Но какой должна быть такая программа, чтобы дать возможность быстро найти необходимого человека и сразу же показать номер его телефона?

Здесь на помощь приходит приложение баз данных, которое позволяет размещать такой объем данных, а также проводить быстрый поиск по любому критерию.