Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина; Азат Шавкатович Якупов

doi:10.26907/1562-5419-2022-25-2-159-178

PDF

Опубликован: 12.06.2022

УДК 004

DOI: https://doi.org/10.26907/1562-5419-2022-25-2-159-178

Выпуск

Том 25 № 2 (2022)

Айгуль Ильдаровна Сибгатуллина

Казанский (Приволжский) Федеральный университет

https://orcid.org/0000-0003-4014-9558

Азат Шавкатович Якупов

Казанский (Приволжский) Федеральный университет

https://orcid.org/0000-0002-2333-8819

Аннотация

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.

В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова:

большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.

Как цитировать

Сибгатуллина, А. И., и А. Ш. Якупов. «Разработка модуля проверки данных для удовлетворения метрики устаревания». Электронные библиотеки, т. 25, вып. 2, июнь 2022 г., сс. 159-78, doi:10.26907/1562-5419-2022-25-2-159-178.

Библиографические ссылки

1. Big Data Market worth $273.4 billion by 2026. URL: https://www.marketsandmarkets.com/Market-Reports/big-data-market-1068.html.
2. Data Retention Policy: What Is It and How to Build One. URL: https://www.techtarget.com/searchdatabackup/definition/data-retention-policy.
3. Batra S., Garg S., Kaur R., Kumar N., Singh A., Zomaya A.Y. Probabilistic data structures for big data analytics: A comprehensive review // Knowledge-Based Systems. 2019. Vol. 188. No. 104987. P. 54–75.
4. Choi K.W., Hossain E., Wiriaatmadja D.T. Discovering mobile applications in cellular device-to-device communications: Hash function and bloom filter-based approach // IEEE Transactions on Mobile Computing. 2016. Vol. 15. No. 2. P. 336–349.
5. Sasikala J., Thaiyalnayaki S. Indexing near-duplicate images in web search using minhash algorithm // International Conference on Processing of Materials, Minerals and Energy. 2018. Vol. 5. No. 1. P. 1943–1949.
6. Drew J., Hahsler M., Moore T. Polymorphic Malware Detection Using Sequence Classification Methods // IEEE Security and Privacy Workshops (SPW). 2016. P. 81–87.
7. Borgohain S.K., Nayak S., Patgiri R. rDBF: A r-Dimensional Bloom Filter for massive scale membership query // Journal of Network and Computer Applications. 2019. Vol. 136. P. 100–113.
8. Batra S., Garg S., Kumar N., Singh A. Probabilistic data structure-based community detection and storage scheme in online social networks // Future Generation Computer Systems. 2019. Vol. 94. P. 173–184.
9. Guo D., Luo L., Luo X., Ma R. T. B., Rottenstreich O. Optimizing Bloom Filter: Challenges, Solutions, and Comparisons // IEEE Communications Surveys & Tutorials. 2019. Vol. 21. No. 2. P. 1912–1949.
10. Boy O., Chazelle B., Kilian J., Rubinfeld R., Tal A. The Bloomier filter: An efficient data structure for static support lookup tables // SODA. 2004. P. 30–39.
11. Hazeyama H., Kadobayashi Y., Matsumoto Y. Adaptive Bloom filter: A space-efficient counting algorithm for unpredictable network traffic // IEICE Transactions on Information and Systems. 2008. Vol. 91. No. 5. P. 1292–1299.
12. Song T., Wang X., Zhou Y. EABF: Energy efficient self-adaptive Bloom filter for network packet processing // IEEE International Conference on Communications (ICC). 2012. P. 2729–2734.
13. Filippova D., Kingsford C., Pellow D. Improving Bloom filter performance on sequence data using k-mer Bloom filters // J. Comput. Biol. 2017. Vol. 26. No. 6. P. 547–557.
14. Calderoni L., Maio D., Palmieri P. Location privacy without mutual trust: The spatial Bloom filter // Computer Communications. 2015. Vol. 68. P. 4–12.
15. Du D.H.C., Lu G., Nam Y.J. BloomStore: Bloom filter based memory-efficient key-value store for indexing of data de-duplication on flash // IEEE 28th Symposium on Mass Storage Systems and Technologies (MSST). 2012. P. 1–11.
16. Deng F., Rafiei D. Approximately detecting duplicates for streaming data using stable Bloom filters // ACM SIGMOD international conference on Management of data. 2006. P. 25–36.
17. Ahmadi M., Geravand S. A novel adjustable matrix Bloom filterbased copy detection system for digital libraries // IEEE 11th International Conference on Computer and Information Technology. 2011. P. 518–525.
18. Guo J., Li F., Peng Y., Qian W., Zhou A. Persistent Bloom Filter: Membership Testing for the Entire History // International Conference on Management of Data. 2018. P. 1037–1052.
19. Nayak S., Patgiri R. A Review on Role of Bloom Filter on DNA Assembly // IEEE Access. 2019. Vol. 7. P. 66939–66954.
20. Reviriego P., Rottenstreich O. The Tandem Counting Bloom Filter – It Takes Two Counters to Tango // IEEE/ACM Transactions on Networking. 2019. Vol. 27. No. 6. P. 2252–2265.
21. Announcing Amazon Redshift data lake export: share data in Apache Parquet format. URL: https://aws.amazon.com/about-aws/whats-new/2019/12/announcing-amazon-redshift-data-lake-export/#:~:text=The%20Parquet%20format%20is%20up,lake%20in%20an%20open%20format.
22. Parquet. URL: https://databricks.com/glossary/what-is-parquet.

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Представляя статьи для публикации в журнале «Электронные библиотеки», авторы автоматически дают согласие предоставить ограниченную лицензию на использование материалов Казанскому (Приволжскому) федеральному университету (КФУ) (разумеется, лишь в том случае, если статья будет принята к публикации). Это означает, что КФУ имеет право опубликовать статью в ближайшем выпуске журнала (на веб-сайте или в печатной форме), а также переиздавать эту статью на архивных компакт-дисках журнала или включить в ту или иную информационную систему или базу данных, производимую КФУ.

Все авторские материалы размещены в журнале «Электронные библиотеки» с ведома авторов. В случае, если у кого-либо из авторов есть возражения против публикации его материалов на данном сайте, материал может быть снят при условии уведомления редакции журнала в письменной форме.

Документы, изданные в журнале «Электронные библиотеки», защищены законодательством об авторских правах, и все авторские права сохраняются за авторами. Авторы самостоятельно следят за соблюдением своих прав на воспроизводство или перевод их работ, опубликованных в журнале. Если материал, опубликованный в журнале «Электронные библиотеки», с разрешения автора переиздается другим издателем или переводится на другой язык, то ссылка на оригинальную публикацию обязательна.

Передавая статьи для опубликования в журнале «Электронные библиотеки», авторы должны принимать в расчет, что публикации в интернете, с одной стороны, предоставляют уникальные возможности доступа к их материалам, но, с другой, являются новой формой обмена информацией в глобальном информационном обществе, где авторы и издатели пока не всегда обеспечены защитой от неправомочного копирования или иного использования материалов, защищенных авторским правом.

При использовании материалов из журнала обязательна ссылка на URL: http://rdl-journal.ru. Любые изменения, дополнения или редактирования авторского текста недопустимы. Копирование отдельных фрагментов статей из журнала разрешается для научных исследований, персонального использования, коммерческого использования до тех пор, пока есть ссылка на оригинальную статью.

Запросы на право переиздания или использования любых материалов, опубликованных в журнале «Электронные библиотеки», следует направлять главному редактору Елизарову А.М. по адресу: amelizarov@gmail.com

Издатели журнала «Электронные библиотеки» не несут ответственности за точки зрения, излагаемые в публикуемых авторских статьях.

Предлагаем авторам статей загрузить с этой страницы, подписать и выслать в адрес издателя журнала по электронной почте скан Авторского договора о передаче неисключительных прав на использование произведения.

Article Sidebar

Main Article Content

Аннотация

Ключевые слова:

Article Details

Библиографические ссылки

Наиболее читаемые статьи этого автора (авторов)