Разработка модуля проверки данных для удовлетворения метрики устаревания

Main Article Content

Айгуль Ильдаровна Сибгатуллина
Азат Шавкатович Якупов

Аннотация

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.


В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Article Details

Библиографические ссылки

1. Big Data Market worth $273.4 billion by 2026. URL: https://www.marketsandmarkets.com/Market-Reports/big-data-market-1068.html.
2. Data Retention Policy: What Is It and How to Build One. URL: https://www.techtarget.com/searchdatabackup/definition/data-retention-policy.
3. Batra S., Garg S., Kaur R., Kumar N., Singh A., Zomaya A.Y. Probabilistic data structures for big data analytics: A comprehensive review // Knowledge-Based Systems. 2019. Vol. 188. No. 104987. P. 54–75.
4. Choi K.W., Hossain E., Wiriaatmadja D.T. Discovering mobile applications in cellular device-to-device communications: Hash function and bloom filter-based approach // IEEE Transactions on Mobile Computing. 2016. Vol. 15. No. 2. P. 336–349.
5. Sasikala J., Thaiyalnayaki S. Indexing near-duplicate images in web search using minhash algorithm // International Conference on Processing of Materials, Minerals and Energy. 2018. Vol. 5. No. 1. P. 1943–1949.
6. Drew J., Hahsler M., Moore T. Polymorphic Malware Detection Using Sequence Classification Methods // IEEE Security and Privacy Workshops (SPW). 2016. P. 81–87.
7. Borgohain S.K., Nayak S., Patgiri R. rDBF: A r-Dimensional Bloom Filter for massive scale membership query // Journal of Network and Computer Applications. 2019. Vol. 136. P. 100–113.
8. Batra S., Garg S., Kumar N., Singh A. Probabilistic data structure-based community detection and storage scheme in online social networks // Future Generation Computer Systems. 2019. Vol. 94. P. 173–184.
9. Guo D., Luo L., Luo X., Ma R. T. B., Rottenstreich O. Optimizing Bloom Filter: Challenges, Solutions, and Comparisons // IEEE Communications Surveys & Tutorials. 2019. Vol. 21. No. 2. P. 1912–1949.
10. Boy O., Chazelle B., Kilian J., Rubinfeld R., Tal A. The Bloomier filter: An efficient data structure for static support lookup tables // SODA. 2004. P. 30–39.
11. Hazeyama H., Kadobayashi Y., Matsumoto Y. Adaptive Bloom filter: A space-efficient counting algorithm for unpredictable network traffic // IEICE Transactions on Information and Systems. 2008. Vol. 91. No. 5. P. 1292–1299.
12. Song T., Wang X., Zhou Y. EABF: Energy efficient self-adaptive Bloom filter for network packet processing // IEEE International Conference on Communications (ICC). 2012. P. 2729–2734.
13. Filippova D., Kingsford C., Pellow D. Improving Bloom filter performance on sequence data using k-mer Bloom filters // J. Comput. Biol. 2017. Vol. 26. No. 6. P. 547–557.
14. Calderoni L., Maio D., Palmieri P. Location privacy without mutual trust: The spatial Bloom filter // Computer Communications. 2015. Vol. 68. P. 4–12.
15. Du D.H.C., Lu G., Nam Y.J. BloomStore: Bloom filter based memory-efficient key-value store for indexing of data de-duplication on flash // IEEE 28th Symposium on Mass Storage Systems and Technologies (MSST). 2012. P. 1–11.
16. Deng F., Rafiei D. Approximately detecting duplicates for streaming data using stable Bloom filters // ACM SIGMOD international conference on Management of data. 2006. P. 25–36.
17. Ahmadi M., Geravand S. A novel adjustable matrix Bloom filterbased copy detection system for digital libraries // IEEE 11th International Conference on Computer and Information Technology. 2011. P. 518–525.
18. Guo J., Li F., Peng Y., Qian W., Zhou A. Persistent Bloom Filter: Membership Testing for the Entire History // International Conference on Management of Data. 2018. P. 1037–1052.
19. Nayak S., Patgiri R. A Review on Role of Bloom Filter on DNA Assembly // IEEE Access. 2019. Vol. 7. P. 66939–66954.
20. Reviriego P., Rottenstreich O. The Tandem Counting Bloom Filter – It Takes Two Counters to Tango // IEEE/ACM Transactions on Networking. 2019. Vol. 27. No. 6. P. 2252–2265.
21. Announcing Amazon Redshift data lake export: share data in Apache Parquet format. URL: https://aws.amazon.com/about-aws/whats-new/2019/12/announcing-amazon-redshift-data-lake-export/#:~:text=The%20Parquet%20format%20is%20up,lake%20in%20an%20open%20format.
22. Parquet. URL: https://databricks.com/glossary/what-is-parquet.