[FLINK-36742][cdc-base][oracle] Filter unacked split for no capture tables when task restore from state

3 months ago · fed73b2a46
parent 0037c4379e
commit fed73b2a46
3 changed files with 379 additions and 8 deletions
--- a/flink-cdc-connect/flink-cdc-source-connectors/flink-cdc-base/src/main/java/org/apache/flink/cdc/connectors/base/source/reader/IncrementalSourceReader.java
+++ b/flink-cdc-connect/flink-cdc-source-connectors/flink-cdc-base/src/main/java/org/apache/flink/cdc/connectors/base/source/reader/IncrementalSourceReader.java
@ -19,6 +19,7 @@ package org.apache.flink.cdc.connectors.base.source.reader;
 import org.apache.flink.api.connector.source.SourceEvent;
 import org.apache.flink.cdc.common.annotation.Experimental;
 import org.apache.flink.cdc.common.annotation.VisibleForTesting;
 import org.apache.flink.cdc.connectors.base.config.SourceConfig;
 import org.apache.flink.cdc.connectors.base.dialect.DataSourceDialect;
 import org.apache.flink.cdc.connectors.base.source.meta.events.FinishedSnapshotSplitsAckEvent;
@ -261,13 +262,14 @@ public class IncrementalSourceReader<T, C extends SourceConfig>
        for (SourceSplitBase split : splits) {
            if (split.isSnapshotSplit()) {
                SnapshotSplit snapshotSplit = split.asSnapshotSplit();
                if (dialect.isIncludeDataCollection(sourceConfig, snapshotSplit.getTableId())) {
                    if (snapshotSplit.isSnapshotReadFinished()) {
                        finishedUnackedSplits.put(snapshotSplit.splitId(), snapshotSplit);
-                } else if (dialect.isIncludeDataCollection(
+                    } else {
                        sourceConfig, snapshotSplit.getTableId())) {
                        unfinishedSplits.add(split);
                    }
                } else {
-                    LOG.debug(
+                    LOG.info(
                            "The subtask {} is skipping split {} because it does not match new table filter.",
                            subtaskId,
                            split.splitId());
@ -320,8 +322,9 @@ public class IncrementalSourceReader<T, C extends SourceConfig>
        // add all un-finished splits (including binlog split) to SourceReaderBase
        if (!unfinishedSplits.isEmpty()) {
            super.addSplits(unfinishedSplits);
-        } else if (suspendedStreamSplit
+        } else if (suspendedStreamSplit != null
-                != null) { // only request new snapshot split if the stream split is suspended
+                || getNumberOfCurrentlyAssignedSplits()
                        <= 1) { // only request new snapshot split if the stream split is suspended
            context.sendSplitRequest();
        }
    }
@ -541,4 +544,9 @@ public class IncrementalSourceReader<T, C extends SourceConfig>
            LOG.info("Stream split offset on checkpoint {}: {}", checkpointId, offset);
        }
    }
    @VisibleForTesting
    public Map<String, SnapshotSplit> getFinishedUnackedSplits() {
        return finishedUnackedSplits;
    }
 }
--- a/flink-cdc-connect/flink-cdc-source-connectors/flink-connector-oracle-cdc/pom.xml
+++ b/flink-cdc-connect/flink-cdc-source-connectors/flink-connector-oracle-cdc/pom.xml
@ -164,6 +164,12 @@ limitations under the License.
            <artifactId>commons-lang3</artifactId>
            <version>${commons-lang3.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-test-utils</artifactId>
            <version>${flink.version}</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
    <build>
--- a/flink-cdc-connect/flink-cdc-source-connectors/flink-connector-oracle-cdc/src/test/java/org/apache/flink/cdc/connectors/oracle/source/reader/OracleSourceReaderTest.java
+++ b/flink-cdc-connect/flink-cdc-source-connectors/flink-connector-oracle-cdc/src/test/java/org/apache/flink/cdc/connectors/oracle/source/reader/OracleSourceReaderTest.java
@ -0,0 +1,357 @@
 /*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *      http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
 package org.apache.flink.cdc.connectors.oracle.source.reader;
 import org.apache.flink.api.common.eventtime.Watermark;
 import org.apache.flink.api.common.typeinfo.TypeInformation;
 import org.apache.flink.api.connector.source.ReaderOutput;
 import org.apache.flink.api.connector.source.SourceOutput;
 import org.apache.flink.api.connector.source.SourceReaderContext;
 import org.apache.flink.cdc.connectors.base.config.JdbcSourceConfig;
 import org.apache.flink.cdc.connectors.base.options.StartupOptions;
 import org.apache.flink.cdc.connectors.base.source.meta.offset.OffsetFactory;
 import org.apache.flink.cdc.connectors.base.source.meta.split.SnapshotSplit;
 import org.apache.flink.cdc.connectors.base.source.meta.split.SourceRecords;
 import org.apache.flink.cdc.connectors.base.source.meta.split.SourceSplitBase;
 import org.apache.flink.cdc.connectors.base.source.meta.split.SourceSplitSerializer;
 import org.apache.flink.cdc.connectors.base.source.meta.split.SourceSplitState;
 import org.apache.flink.cdc.connectors.base.source.metrics.SourceReaderMetrics;
 import org.apache.flink.cdc.connectors.base.source.reader.IncrementalSourceReader;
 import org.apache.flink.cdc.connectors.base.source.reader.IncrementalSourceReaderContext;
 import org.apache.flink.cdc.connectors.base.source.reader.IncrementalSourceRecordEmitter;
 import org.apache.flink.cdc.connectors.base.source.reader.IncrementalSourceSplitReader;
 import org.apache.flink.cdc.connectors.base.source.utils.hooks.SnapshotPhaseHooks;
 import org.apache.flink.cdc.connectors.oracle.source.OracleDialect;
 import org.apache.flink.cdc.connectors.oracle.source.OracleSourceTestBase;
 import org.apache.flink.cdc.connectors.oracle.source.config.OracleSourceConfig;
 import org.apache.flink.cdc.connectors.oracle.source.config.OracleSourceConfigFactory;
 import org.apache.flink.cdc.connectors.oracle.source.meta.offset.RedoLogOffsetFactory;
 import org.apache.flink.cdc.connectors.oracle.testutils.RecordsFormatter;
 import org.apache.flink.cdc.debezium.DebeziumDeserializationSchema;
 import org.apache.flink.connector.base.source.reader.RecordEmitter;
 import org.apache.flink.connector.base.source.reader.RecordsWithSplitIds;
 import org.apache.flink.connector.base.source.reader.synchronization.FutureCompletingBlockingQueue;
 import org.apache.flink.connector.testutils.source.reader.TestingReaderContext;
 import org.apache.flink.core.io.InputStatus;
 import org.apache.flink.metrics.groups.SourceReaderMetricGroup;
 import org.apache.flink.table.api.DataTypes;
 import org.apache.flink.table.types.DataType;
 import org.apache.flink.table.types.logical.LogicalType;
 import org.apache.flink.table.types.logical.RowType;
 import org.apache.flink.util.Collector;
 import io.debezium.relational.TableId;
 import io.debezium.relational.history.TableChanges.TableChange;
 import org.apache.kafka.connect.source.SourceRecord;
 import org.junit.Test;
 import java.time.ZoneId;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.List;
 import java.util.Map;
 import java.util.function.Supplier;
 import static org.apache.flink.core.io.InputStatus.MORE_AVAILABLE;
 import static org.junit.Assert.assertEquals;
 /** Tests for {@link IncrementalSourceReader}. */
 public class OracleSourceReaderTest extends OracleSourceTestBase {
    @Test
    public void testFinishedUnackedSplitsCleanInvalidSplitAccordingToNewFilter() throws Exception {
        createAndInitialize("customer.sql");
        final OracleSourceConfig sourceConfig =
                getConfig(new String[] {"CUSTOMERS", "CUSTOMERS_1"});
        final DataType dataType =
                DataTypes.ROW(
                        DataTypes.FIELD("ID", DataTypes.BIGINT()),
                        DataTypes.FIELD("NAME", DataTypes.STRING()),
                        DataTypes.FIELD("ADDRESS", DataTypes.STRING()),
                        DataTypes.FIELD("PHONE_NUMBER", DataTypes.STRING()));
        List<SourceSplitBase> snapshotSplits;
        TableId tableId = new TableId(ORACLE_DATABASE, ORACLE_SCHEMA, "CUSTOMERS");
        TableId tableId1 = new TableId(ORACLE_DATABASE, ORACLE_SCHEMA, "CUSTOMERS_1");
        OracleDialect oracleDialect = new OracleDialect();
        Map<TableId, TableChange> tableSchemas =
                oracleDialect.discoverDataCollectionSchemas(sourceConfig);
        RowType splitType =
                RowType.of(
                        new LogicalType[] {DataTypes.INT().getLogicalType()}, new String[] {"id"});
        snapshotSplits =
                Arrays.asList(
                        new SnapshotSplit(
                                tableId,
                                tableId + ":0",
                                splitType,
                                null,
                                new Integer[] {200},
                                null,
                                tableSchemas),
                        new SnapshotSplit(
                                tableId,
                                tableId + ":1",
                                splitType,
                                new Integer[] {200},
                                new Integer[] {1500},
                                null,
                                tableSchemas),
                        new SnapshotSplit(
                                tableId,
                                tableId + ":2",
                                splitType,
                                new Integer[] {1500},
                                null,
                                null,
                                tableSchemas),
                        new SnapshotSplit(
                                tableId1,
                                tableId1 + ":0",
                                splitType,
                                null,
                                new Integer[] {200},
                                null,
                                tableSchemas),
                        new SnapshotSplit(
                                tableId1,
                                tableId1 + ":1",
                                splitType,
                                new Integer[] {200},
                                new Integer[] {1500},
                                null,
                                tableSchemas),
                        new SnapshotSplit(
                                tableId1,
                                tableId1 + ":2",
                                splitType,
                                new Integer[] {1500},
                                null,
                                null,
                                tableSchemas));
        // Step 1: start source reader and assign snapshot splits
        IncrementalSourceReader<SourceRecord, JdbcSourceConfig> reader = createReader(sourceConfig);
        reader.start();
        reader.addSplits(snapshotSplits);
        String[] expectedRecords =
                new String[] {
                    "+I[111, user_6, Shanghai, 123567891234]",
                    "+I[111, user_6, Shanghai, 123567891234]",
                    "+I[110, user_5, Shanghai, 123567891234]",
                    "+I[110, user_5, Shanghai, 123567891234]",
                    "+I[101, user_1, Shanghai, 123567891234]",
                    "+I[101, user_1, Shanghai, 123567891234]",
                    "+I[103, user_3, Shanghai, 123567891234]",
                    "+I[103, user_3, Shanghai, 123567891234]",
                    "+I[102, user_2, Shanghai, 123567891234]",
                    "+I[102, user_2, Shanghai, 123567891234]",
                    "+I[118, user_7, Shanghai, 123567891234]",
                    "+I[118, user_7, Shanghai, 123567891234]",
                    "+I[121, user_8, Shanghai, 123567891234]",
                    "+I[121, user_8, Shanghai, 123567891234]",
                    "+I[123, user_9, Shanghai, 123567891234]",
                    "+I[123, user_9, Shanghai, 123567891234]",
                    "+I[109, user_4, Shanghai, 123567891234]",
                    "+I[109, user_4, Shanghai, 123567891234]",
                    "+I[1009, user_10, Shanghai, 123567891234]",
                    "+I[1009, user_10, Shanghai, 123567891234]",
                    "+I[1011, user_12, Shanghai, 123567891234]",
                    "+I[1011, user_12, Shanghai, 123567891234]",
                    "+I[1010, user_11, Shanghai, 123567891234]",
                    "+I[1010, user_11, Shanghai, 123567891234]",
                    "+I[1013, user_14, Shanghai, 123567891234]",
                    "+I[1013, user_14, Shanghai, 123567891234]",
                    "+I[1012, user_13, Shanghai, 123567891234]",
                    "+I[1012, user_13, Shanghai, 123567891234]",
                    "+I[1015, user_16, Shanghai, 123567891234]",
                    "+I[1015, user_16, Shanghai, 123567891234]",
                    "+I[1014, user_15, Shanghai, 123567891234]",
                    "+I[1014, user_15, Shanghai, 123567891234]",
                    "+I[1017, user_18, Shanghai, 123567891234]",
                    "+I[1017, user_18, Shanghai, 123567891234]",
                    "+I[1016, user_17, Shanghai, 123567891234]",
                    "+I[1016, user_17, Shanghai, 123567891234]",
                    "+I[1019, user_20, Shanghai, 123567891234]",
                    "+I[1019, user_20, Shanghai, 123567891234]",
                    "+I[1018, user_19, Shanghai, 123567891234]",
                    "+I[1018, user_19, Shanghai, 123567891234]",
                    "+I[2000, user_21, Shanghai, 123567891234]",
                    "+I[2000, user_21, Shanghai, 123567891234]"
                };
        // Step 2: wait the snapshot splits finished reading
        Thread.sleep(10000L);
        List<String> actualRecords = consumeRecords(reader, dataType, 42);
        assertEqualsInAnyOrder(Arrays.asList(expectedRecords), actualRecords);
        // Step 3: snapshot reader's state
        List<SourceSplitBase> splitsState = reader.snapshotState(1L);
        // Step 4: restart reader from a restored state
        final OracleSourceConfig sourceConfig1 = getConfig(new String[] {"CUSTOMERS"});
        IncrementalSourceReader<SourceRecord, JdbcSourceConfig> restartReader =
                createReader(sourceConfig1);
        restartReader.start();
        restartReader.addSplits(splitsState);
        // Step 5: check the finished unacked splits between original reader and restarted reader
        assertEquals(3, restartReader.getFinishedUnackedSplits().size());
        reader.close();
        restartReader.close();
    }
    private IncrementalSourceReader<SourceRecord, JdbcSourceConfig> createReader(
            OracleSourceConfig configuration) {
        return createReader(configuration, new TestingReaderContext());
    }
    private IncrementalSourceReader<SourceRecord, JdbcSourceConfig> createReader(
            OracleSourceConfig configuration, SourceReaderContext readerContext) {
        final FutureCompletingBlockingQueue<RecordsWithSplitIds<SourceRecords>> elementsQueue =
                new FutureCompletingBlockingQueue<>();
        final SourceReaderMetricGroup sourceReaderMetricGroup = readerContext.metricGroup();
        final SourceReaderMetrics sourceReaderMetrics =
                new SourceReaderMetrics(sourceReaderMetricGroup);
        RedoLogOffsetFactory offsetFactory = new RedoLogOffsetFactory();
        final RecordEmitter<SourceRecords, SourceRecord, SourceSplitState> recordEmitter =
                new IncrementalSourceRecordEmitter<>(
                        new ForwardDeserializeSchema(),
                        sourceReaderMetrics,
                        configuration.isIncludeSchemaChanges(),
                        offsetFactory);
        final IncrementalSourceReaderContext incrementalSourceReaderContext =
                new IncrementalSourceReaderContext(readerContext);
        OracleDialect dialect = new OracleDialect();
        Supplier<IncrementalSourceSplitReader<JdbcSourceConfig>> splitReaderSupplier =
                () ->
                        new IncrementalSourceSplitReader<>(
                                readerContext.getIndexOfSubtask(),
                                dialect,
                                configuration,
                                incrementalSourceReaderContext,
                                SnapshotPhaseHooks.empty());
        return new IncrementalSourceReader<>(
                elementsQueue,
                splitReaderSupplier,
                recordEmitter,
                readerContext.getConfiguration(),
                incrementalSourceReaderContext,
                configuration,
                new SourceSplitSerializer() {
                    @Override
                    public OffsetFactory getOffsetFactory() {
                        return offsetFactory;
                    }
                },
                dialect);
    }
    private OracleSourceConfig getConfig(String[] captureTables) {
        String[] captureTableIds =
                Arrays.stream(captureTables)
                        .map(tableName -> ORACLE_SCHEMA + "." + tableName)
                        .toArray(String[]::new);
        return (OracleSourceConfig)
                new OracleSourceConfigFactory()
                        .startupOptions(StartupOptions.initial())
                        .databaseList(ORACLE_DATABASE)
                        .tableList(captureTableIds)
                        .includeSchemaChanges(false)
                        .hostname(ORACLE_CONTAINER.getHost())
                        .port(ORACLE_CONTAINER.getOraclePort())
                        .splitSize(10)
                        .fetchSize(2)
                        .username(ORACLE_CONTAINER.getUsername())
                        .password(ORACLE_CONTAINER.getPassword())
                        .serverTimeZone(ZoneId.of("UTC").toString())
                        .create(0);
    }
    private List<String> consumeRecords(
            IncrementalSourceReader<SourceRecord, JdbcSourceConfig> sourceReader,
            DataType recordType,
            int size)
            throws Exception {
        // Poll all the n records of the single split.
        final SimpleReaderOutput output = new SimpleReaderOutput();
        InputStatus status = MORE_AVAILABLE;
        while (MORE_AVAILABLE == status || output.getResults().size() < size) {
            status = sourceReader.pollNext(output);
        }
        final RecordsFormatter formatter = new RecordsFormatter(recordType);
        return formatter.format(output.getResults());
    }
    // ------------------------------------------------------------------------
    //  test utilities
    // ------------------------------------------------------------------------
    private static class SimpleReaderOutput implements ReaderOutput<SourceRecord> {
        private final List<SourceRecord> results = new ArrayList<>();
        @Override
        public void collect(SourceRecord record) {
            results.add(record);
        }
        public List<SourceRecord> getResults() {
            return results;
        }
        @Override
        public void collect(SourceRecord record, long timestamp) {
            collect(record);
        }
        @Override
        public void emitWatermark(Watermark watermark) {}
        @Override
        public void markIdle() {}
        @Override
        public void markActive() {
            throw new UnsupportedOperationException();
        }
        @Override
        public SourceOutput<SourceRecord> createOutputForSplit(String splitId) {
            return this;
        }
        @Override
        public void releaseOutputForSplit(String splitId) {}
    }
    private static class ForwardDeserializeSchema
            implements DebeziumDeserializationSchema<SourceRecord> {
        private static final long serialVersionUID = 1L;
        @Override
        public void deserialize(SourceRecord record, Collector<SourceRecord> out) throws Exception {
            out.collect(record);
        }
        @Override
        public TypeInformation<SourceRecord> getProducedType() {
            return TypeInformation.of(SourceRecord.class);
        }
    }
 }