16 концепций дизайна систем, которые нужно изучить до собеседования

год назад·10 мин. на чтение

Чтобы преуспеть в проектировании систем (system design), одним из наиболее важных аспектов является развитие глубокого понимания фундаментальных концепций проектирования систем.

Чтобы преуспеть в проектировании систем, одним из наиболее важных аспектов является развитие глубокого понимания фундаментальных концепций проектирования систем, таких как балансировка нагрузки (load balancing), кэширование (caching), секционирование (partitioning), репликация (replication), базы данных (database) и прокси-серверы (proxy). 16 ключевых понятий, описанные в этой статье, могут существенно повлиять на вашу способность решать проблемы проектирования систем. Эти концепции варьируются от понимания тонкостей шлюза API и освоения методов балансировки нагрузки до понимания важности CDN и оценки роли кэширования в современных распределенных системах. К концу этой статьи у вас будет полное представление об этих основных идеях и уверенность в том, что вы сможете применить их на следующем собеседовании. Собеседования по проектированию систем по своей природе не структурированы. Во время собеседования сложно уследить за вещами и быть уверенным, что вы затронули все существенные аспекты дизайна. В этой статье мы обсудим 16 основных концепций проектирования систем. Вот их краткое описание:
  1. Система доменных имен (DNS)
  2. Балансировщик нагрузки
  3. Шлюз API (API Gateway)
  4. CDN
  5. Прямой прокси против обратного прокси
  6. Кэширование
  7. Секционирование данных
  8. Репликация базы данных
  9. Распределенные системы обмена сообщениями
  10. Микросервисы
  11. Базы данных NoSQL
  12. Индекс базы данных
  13. Распределенные файловые системы
  14. Система уведомлений
  15. Полнотекстовый поиск
  16. Распределенные сервисы координации

1. Система доменных имен (DNS)

Система доменных имен (DNS) является фундаментальным компонентом интернет-инфраструктуры, который преобразует удобные для человека доменные имена в соответствующие IP-адреса. Он функционирует как телефонная книга для Интернета, позволяя пользователям получать доступ к веб-сайтам и службам, вводя легко запоминающиеся доменные имена, такие как www.example.com, а не числовые IP-адреса, такие как 192.0.2.1, которые компьютеры используют для идентификации друг друга. Когда вы вводите доменное имя в свой веб-браузер, DNS отвечает за поиск соответствующего IP-адреса и направление вашего запроса на правильный сервер. Процесс начинается с того, что ваш компьютер отправляет запрос рекурсивному преобразователю, который затем выполняет поиск на ряде DNS-серверов, начиная с корневого сервера, затем на сервере домена верхнего уровня (TLD) и, наконец, на авторитетном сервере имен. Как только IP-адрес найден, рекурсивный преобразователь возвращает его на ваш компьютер, позволяя вашему браузеру установить соединение с целевым сервером и получить доступ к нужному контенту.

2. Балансировщик нагрузки

Подсистема балансировки нагрузки — это сетевое устройство или программное обеспечение, которое распределяет входящий сетевой трафик между несколькими серверами для обеспечения оптимального использования ресурсов, уменьшения задержки и поддержания высокой доступности. Он играет жизненно важную роль в масштабировании приложений и эффективном управлении рабочими нагрузками серверов, особенно в ситуациях, когда происходит внезапный всплеск трафика или неравномерное распределение запросов между серверами. Подсистемы балансировки нагрузки используют различные алгоритмы для определения того, как распределять входящий трафик. К распространенным алгоритмам относятся:
  • Round Robin: Запросы распределяются последовательно и равномерно по всем доступным серверам циклически.
  • Наименьшее количество подключений: Подсистема балансировки нагрузки назначает запросы серверу с наименьшим количеством активных подключений, отдавая приоритет менее загруженным серверам.
  • Хеш IP-адреса: IP-адрес клиента хешируется, и полученное значение используется для определения того, на какой сервер должен быть направлен запрос. Этот метод гарантирует, что запросы конкретного клиента всегда направляются на один и тот же сервер, помогая поддерживать постоянство сеанса.

3. Шлюз API (API Gateway)

Шлюз API — это сервер или служба, которая выступает в качестве посредника между внешними клиентами и внутренними микросервисами или серверными службами приложения на основе API. Это важнейший компонент в современных архитектурах, особенно в системах на основе микросервисов, где он упрощает процесс связи и обеспечивает единую точку входа для клиентов для доступа к различным службам. Основные функции API-шлюза включают в себя:
  • Маршрутизация запроса: Он направляет входящие запросы API от клиентов в соответствующий бэкэнд или микросервис на основе предопределенных правил и конфигураций.
  • Аутентификация и авторизация: Шлюз API может обрабатывать аутентификацию и авторизацию пользователей, гарантируя, что только авторизованные клиенты могут получить доступ к сервисам. Он может проверять ключи API, токены или другие учетные данные перед маршрутизацией запросов к серверным службам.
  • Ограничение скорости и throttling: Чтобы защитить серверные службы от чрезмерной нагрузки или злоупотреблений, шлюз API может применять ограничения скорости или регулировать запросы от клиентов на основе предопределенных политик.
  • Кэширование: чтобы уменьшить задержку и нагрузку на серверную часть, шлюз API может кэшировать часто используемые ответы, предоставляя их непосредственно клиентам без необходимости запрашивать бэкэнд сервисы.
  • Преобразование запросов и ответов: Шлюз API может изменять запросы и ответы, такие как преобразование форматов данных, добавление или удаление заголовков или изменение параметров запроса, чтобы обеспечить совместимость между клиентами и службами.

4. CDN

Сеть доставки контента (CDN) — это распределенная сеть серверов, которые хранят и доставляют контент, такой как изображения, видео, CSS и скрипты, пользователям из географически более близких мест. CDN предназначены для повышения производительности, скорости и надежности доставки контента конечным пользователям, независимо от их местоположения относительно исходного сервера. Вот как работает CDN:
  1. Когда пользователь запрашивает контент с веб-сайта или приложения, запрос направляется на ближайший сервер CDN, также известный как пограничный сервер (edge server).
  2. Если на пограничном сервере запрошенное содержимое закэшировано, он напрямую передает его пользователю. Это уменьшает задержку и улучшает взаимодействие с пользователем, поскольку контент перемещается на меньшее расстояние.
  3. Если контент не кэшируется на пограничном сервере, CDN извлекает его с исходного сервера или другого ближайшего сервера CDN. После получения содержимого оно кэшируется на пограничном сервере и передается пользователю.
  4. Чтобы убедиться, что контент остается актуальным, CDN периодически проверяет исходный сервер на наличие изменений и соответствующим образом обновляет свой кэш.

5. Прямой прокси против обратного прокси

Прямой прокси (forward proxy), также известный как «прокси-сервер» или просто «прокси», представляет собой сервер, который находится перед одной или несколькими клиентскими машинами и выступает в качестве посредника между клиентами и Интернетом. Когда клиентский компьютер делает запрос к ресурсу в Интернете, запрос сначала отправляется на прокси-сервер. Затем прокси-сервер пересылки пересылает запрос в Интернет от имени клиентского компьютера и возвращает ответ клиентскому компьютеру. Обратный прокси (reverse proxy) — это сервер, который находится перед одним или несколькими веб-серверами и выступает в качестве посредника между веб-серверами и Интернетом. Когда клиент делает запрос к ресурсу в Интернете, запрос сначала отправляется на обратный прокси-сервер. Затем обратный прокси-сервер перенаправляет запрос на один из веб-серверов, который возвращает ответ обратному прокси-серверу. Затем обратный прокси-сервер возвращает ответ клиенту.

6. Кэширование

Кэш — это высокоскоростной уровень хранения, который находится между приложением и исходным источником данных, таким как база данных, файловая система или удаленная веб-служба. Когда данные запрашиваются приложением, они сначала проверяются в кэше. Если данные найдены в кэше, они возвращаются в приложение. Если данные не найдены в кэше, они извлекаются из исходного источника, сохраняются в кэше для использования в будущем и возвращаются в приложение. В распределенной системе кэширование может выполняться в нескольких местах, например, в клиенте, DNS, CDN, балансировщике нагрузки, шлюзе API, сервере, базе данных и т. д.

7. Секционирование данных

В базе данных горизонтальное секционирование, также известное как шардирование (sharding), включает в себя разделение строк таблицы на более мелкие таблицы и хранение их на разных серверах или экземплярах базы данных. Это делается для распределения нагрузки базы данных между несколькими серверами и повышения производительности. С другой стороны, вертикальное секционирование включает в себя разделение столбцов таблицы на отдельные таблицы. Это сделано для уменьшения количества столбцов в таблице и повышения производительности запросов, которые обращаются только к небольшому количеству столбцов.

8. Репликация базы данных

Репликация базы данных — это метод, используемый для хранения нескольких копий одной и той же базы данных на разных серверах или в разных расположениях. Основной целью репликации баз данных является повышение доступности, избыточности и отказоустойчивости данных, гарантируя, что система продолжит функционировать даже в случае сбоев оборудования или других проблем. В реплицированной базе данных один сервер выступает в качестве основной (или главной) базы данных, в то время как другие функционируют как реплики (или ведомые). Процесс включает в себя синхронизацию данных между базой данных-источником и репликами, чтобы все они имели одинаковую актуальную информацию. Репликация базы данных имеет несколько преимуществ, в том числе:
  • Улучшенная производительность: Распределяя запросы на чтение между несколькими репликами, можно снизить нагрузку на базу данных-источник и сократить время отклика на запросы.
  • Высокая доступность: В случае сбоя или простоя базы данных-источника реплики могут продолжать обслуживать данные, обеспечивая бесперебойный доступ к приложению.
  • Улучшенная защита данных: Наличие нескольких копий базы данных в разных расположениях помогает защититься от потери данных из-за сбоев оборудования или других аварий.
  • Балансировка нагрузки: Реплики могут обрабатывать запросы на чтение, что позволяет лучше распределять нагрузку и снижает общую нагрузку на базу данных-источник.

9. Распределенные системы обмена сообщениями

Распределенные системы обмена сообщениями позволяют обмениваться сообщениями между несколькими потенциально географически рассредоточенными приложениями, службами или компонентами надежным, масштабируемым и отказоустойчивым образом. Они облегчают связь, разделяя компоненты отправителя и получателя, позволяя им развиваться и работать независимо. Распределенные системы обмена сообщениями особенно полезны в крупномасштабных или сложных системах, таких как системы микросервисов или распределенные вычислительные среды. Примерами таких систем являются Apache Kafka и RabbitMQ.

10. Микросервисы

Микросервисы — это архитектурный стиль, в котором приложение структурировано как набор небольших, слабосвязанных и независимо развертываемых служб. Каждый микросервис отвечает за определенную часть функциональности или домена в приложении и взаимодействует с другими микросервисами через четко определенные API. Этот подход является отходом от традиционной монолитной архитектуры, где приложение строится как единое, тесно связанное целое. Основными характеристиками микросервисов являются:
  • Единая ответственность: Каждый микросервис фокусируется на определенной функциональности или предметной области, придерживаясь принципа единой ответственности. Это упрощает понимание, разработку и обслуживание сервисов.
  • Независимость: Микросервисы можно разрабатывать, развертывать и масштабировать независимо друг от друга. Это обеспечивает повышенную гибкость и оперативность процесса разработки, поскольку команды могут одновременно работать над различными сервисами, не влияя на всю систему.
  • Децентрализованность: Микросервисы, как правило, децентрализованы, и каждый сервис владеет своими данными и бизнес-логикой. Это способствует разделению обязанностей и позволяет командам принимать решения и выбирать технологии, которые наилучшим образом соответствуют их конкретным требованиям.
  • Коммуникация: Микросервисы взаимодействуют друг с другом с помощью облегченных протоколов, таких как HTTP/REST, gRPC или очередей сообщений. Это способствует функциональной совместимости и упрощает интеграцию новых сервисов или замену существующих.
  • Отказоустойчивость: Поскольку микросервисы независимы, сбой в одной службе не обязательно приводит к сбою всей системы. Это может помочь повысить общую устойчивость приложения.

11. Базы данных NoSQL

Базы данных NoSQL, или базы данных «не только SQL», представляют собой нереляционные базы данных, предназначенные для хранения, управления и извлечения неструктурированных или частично структурированных данных. Они предлагают альтернативу традиционным реляционным базам данных, которые полагаются на структурированные данные и предопределенные схемы. Базы данных NoSQL стали популярными благодаря своей гибкости, масштабируемости и способности обрабатывать большие объемы данных, что делает их хорошо подходящими для современных приложений, обработки больших данных и аналитики в реальном времени. Базы данных NoSQL можно разделить на четыре основных типа:
  • Документные: Эти базы данных хранят данные в структурах, похожих на документы, таких как JSON или BSON. Каждый документ является автономным и может иметь свою уникальную структуру, что делает их пригодными для работы с разнородными данными. Примерами баз данных NoSQL на основе документов являются MongoDB и Couchbase.
  • Ключ-значение: Эти базы данных хранят данные в виде пар "ключ-значение", где ключ выступает в качестве уникального идентификатора, а значение содержит связанные данные. Базы данных "ключ-значение" очень эффективны для простых операций чтения и записи, и их можно легко секционировать и масштабировать по горизонтали. Примерами баз данных NoSQL типа "ключ-значение" являются Redis и Amazon DynamoDB.
  • Колончатые: Эти базы данных хранят данные в семействах столбцов, которые представляют собой группы связанных столбцов. Они предназначены для обработки рабочих нагрузок с большим количеством операций записи и очень эффективны для запроса данных с известными ключами строк и столбцов. Примерами баз данных NoSQL семейства столбцов являются Apache, Cassandra и HBase.
  • Графовые: Эти базы данных предназначены для хранения и запроса данных, которые имеют сложные отношения и взаимосвязанные структуры, такие как социальные сети или рекомендательные системы. Графовые базы данных используют узлы, ребра и свойства для представления и хранения данных, что упрощает выполнение сложных обходов и запросов на основе связей. Примерами графовых баз данных NoSQL являются Neo4j и Amazon Neptune.

12. Индекс базы данных

Индексы базы данных — это структуры данных, которые повышают скорость и эффективность операций запросов в базе данных. Они работают аналогично индексу в книге, позволяя системе управления базами данных (СУБД) быстро находить данные, связанные с определенным значением или набором значений, без необходимости поиска в каждой строке таблицы. Предоставляя более прямой путь к нужным данным, индексы могут значительно сократить время, необходимое для извлечения информации из базы данных. Индексы обычно строятся на основе одного или нескольких столбцов таблицы базы данных. Наиболее распространенным типом индекса является индекс B-дерева, который организует данные в иерархическую древовидную структуру, что позволяет быстро выполнять операции поиска, вставки и удаления. Существуют и другие типы индексов, такие как растровые индексы и хэш-индексы, каждый из которых имеет свои конкретные варианты использования и преимущества. Хотя индексы могут значительно повысить производительность запросов, у них также есть некоторые компромиссы:
  • Место для хранения: Индексы занимают дополнительное пространство для хранения, так как они создают и поддерживают отдельные структуры данных наряду с исходными табличными данными.
  • Производительность записи: При вставке, обновлении или удалении данных в таблице необходимо также обновить связанные индексы, что может замедлить операции записи.

13. Распределенные файловые системы

Распределенные файловые системы — это решения для хранения данных, предназначенные для управления и предоставления доступа к файлам и каталогам на нескольких серверах, узлах или машинах, часто распределенных по сети. Они позволяют пользователям и приложениям получать доступ к файлам и управлять ими, как если бы они хранились в локальной файловой системе, даже если фактические файлы могут физически храниться на нескольких удаленных серверах. Распределенные файловые системы часто используются в крупномасштабных или распределенных вычислительных средах для обеспечения отказоустойчивости, высокой доступности и повышения производительности.

14. Система уведомлений

Они используются для отправки уведомлений или предупреждений пользователям, таких как электронные письма, push-уведомления или текстовые сообщения.

15. Полнотекстовый поиск

Полнотекстовый поиск позволяет пользователям искать определенные слова или фразы в приложении или на веб-сайте. Когда пользователь запрашивает, приложение или веб-сайт возвращает наиболее релевантные результаты. Чтобы сделать это быстро и эффективно, полнотекстовый поиск использует инвертированный индекс, который представляет собой структуру данных, которая сопоставляет слова или фразы с документами, в которых они появляются. Примером таких систем является Elastic Search.

16. Распределенный сервис координации

Распределенный сервис координации — это системы, предназначенные для управления и координации деятельности распределенных приложений, служб или узлов надежным, эффективным и отказоустойчивым образом. Они помогают поддерживать согласованность, обрабатывать распределенную синхронизацию и управлять конфигурацией и состоянием различных компонентов в распределенной среде. Распределенные координационные службы особенно полезны в крупномасштабных или сложных системах, таких как микросервисные архитектуры, распределенные вычислительные среды или кластерные базы данных. Примерами таких сервисов являются Apache ZooKeeper, etcd, Consul.

Итоги

Увеличьте свои шансы на успешное прохождение собеседований по проектированию систем, используя вышеупомянутые концепции проектирования системы. Ниже приведен список распространенных вопросов на собеседовании по проектированию систем:
  • Разработка файлообменного сервиса, такого как Google Drive или Dropbox.
  • Проектирование платформы потокового видео
  • Проектирование службы сокращения URL-адресов
  • Проектирование поискового робота
  • Проектирование Uber
  • Разработка мессенджера
  • Проектирование поиска в Твиттере

Архитектура веб-приложений

год назад·1 мин. на чтение

Что такое архитектура веб-приложения и как спроектировать приложение

Существует много вариантов архитектур для построения веб-приложений. В понятие архитектуры можно включить множество вопросов. Буквально все вопросы, которые появляются перед тем как начинать делать проект, можно отнести к архитектуре. От ответов на эти вопросы будет зависеть архитектура веб приложения. При построении архитектуры нужно исходить из потребностей и требований. Если требования не ясны, то следует исключить все пробелы. Если у приложения есть публичная часть, которая должна индексироваться поисковиками, то следует посмотреть в сторону рендеринга на стороне сервера и соответствующие фреймворки. Это блоги, новостные сайты, интернет магазины, маркетплейсы и т.д.
Если веб-приложение представляет собой приватное приложение, то отличным вариантом может стать решение на основе рендеринга на стороне клиента (CSR). Это решения, основанные на SPA (Single Page Application), написанные с помощью фреймворков React, Angular, Vue, Svelte или PWA (Progressive Web Apps). Примерами таких приложений могут быть приложения для автосалонов, через которые зарегистрированный пользователь может записаться на техобслуживание. С ростом проекта нужно правильно организовать не только проект, но и работу команд. Стоит рассмотреть разделение монолита на микросервисы на бекенде, и на микрофронтенды на фронтенде. В архитектуру приложения также входит устройство бэкэнда и баз данных, наличие балансировщиков нагрузки, CDN, горизонтальное и вертикальное масштабирование и т.д. Также тема архитектуры веб-приложений популярна на собеседовании. Обычно блок вопросов по архитектуре выносят в отдельное интервью по System Design. Также рекомендую ознакомиться с обзором на книгу, которая будет полезна при проектировании высоконагруженных систем. Смотреть на Rutube